論文の概要: Mixed Diffusion for 3D Indoor Scene Synthesis
- arxiv url: http://arxiv.org/abs/2405.21066v2
- Date: Mon, 09 Dec 2024 22:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:33:52.621555
- Title: Mixed Diffusion for 3D Indoor Scene Synthesis
- Title(参考訳): 3次元室内シーン合成のための混合拡散
- Authors: Siyi Hu, Diego Martin Arroyo, Stephanie Debats, Fabian Manhardt, Luca Carlone, Federico Tombari,
- Abstract要約: 提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
- 参考スコア(独自算出の注目度): 55.94569112629208
- License:
- Abstract: Generating realistic 3D scenes is an area of growing interest in computer vision and robotics. However, creating high-quality, diverse synthetic 3D content often requires expert intervention, making it costly and complex. Recently, efforts to automate this process with learning techniques, particularly diffusion models, have shown significant improvements in tasks like furniture rearrangement. However, applying diffusion models to floor-conditioned indoor scene synthesis remains under-explored. This task is especially challenging as it requires arranging objects in continuous space while selecting from discrete object categories, posing unique difficulties for conventional diffusion methods. To bridge this gap, we present MiDiffusion, a novel mixed discrete-continuous diffusion model designed to synthesize plausible 3D indoor scenes given a floor plan and pre-arranged objects. We represent a scene layout by a 2D floor plan and a set of objects, each defined by category, location, size, and orientation. Our approach uniquely applies structured corruption across mixed discrete semantic and continuous geometric domains, resulting in a better-conditioned problem for denoising. Evaluated on the 3D-FRONT dataset, MiDiffusion outperforms state-of-the-art autoregressive and diffusion models in floor-conditioned 3D scene synthesis. Additionally, it effectively handles partial object constraints via a corruption-and-masking strategy without task-specific training, demonstrating advantages in scene completion and furniture arrangement tasks.
- Abstract(参考訳): リアルな3Dシーンを生成することは、コンピュータビジョンとロボット工学への関心が高まっている分野だ。
しかし、高品質で多様な合成3Dコンテンツを作成するには、しばしば専門家の介入を必要とし、費用がかかり複雑になる。
近年,この過程を学習技術,特に拡散モデルで自動化しようとする試みは,家具の再配置などのタスクにおいて顕著に改善されている。
しかし, フロアコンディショニング屋内シーン合成への拡散モデルの適用は未検討のままである。
このタスクは、離散オブジェクトカテゴリから選択しながら連続空間にオブジェクトを配置する必要があるため、特に困難であり、従来の拡散法に特有の困難を生じさせる。
このギャップを埋めるために,フロアプランと事前配置オブジェクトを付与した可塑性3次元屋内シーンを合成するために設計された,離散連続拡散モデルであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがカテゴリ、場所、サイズ、方向によって定義される。
我々のアプローチは、離散的意味領域と連続幾何学領域をまたいだ構造的腐敗を独自に適用し、より条件付きの問題をもたらす。
MiDiffusionは3D-FRONTデータセットで評価され、フロアコンディショニングされた3Dシーン合成において最先端の自己回帰モデルと拡散モデルより優れている。
さらに、タスク固有のトレーニングを使わずに、部分的オブジェクト制約を汚職・マスキング戦略で効果的に処理し、シーン補完と家具配置タスクの利点を実証する。
関連論文リスト
- 3D Spatial Understanding in MLLMs: Disambiguation and Evaluation [13.614206918726314]
本研究では,対象対象物体の局所化・曖昧化能力を高める手法を提案する。
提案手法は,文の類似性を評価する従来の指標に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T16:04:32Z) - DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T23:18:25Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - $\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation [17.281031933210762]
本稿では,3次元ポーズ推定のための新しいフレームワークであるDigital Diffusion Pose(textDi2textPose$)を紹介する。
$textDi2textPose$は2段階のプロセスを採用している。
この方法論的な革新は、物理的に実行可能な構成への探索空間を限定的に制限する。
論文 参考訳(メタデータ) (2024-05-27T10:01:36Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - DiffuScene: Denoising Diffusion Models for Generative Indoor Scene
Synthesis [44.521452102413534]
拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3Dインスタンスプロパティを生成し、各オブジェクト設定に最もよく似た幾何学を検索する。
論文 参考訳(メタデータ) (2023-03-24T18:00:15Z) - ATISS: Autoregressive Transformers for Indoor Scene Synthesis [112.63708524926689]
我々は,合成室内環境を構築するための新しい自己回帰型トランスフォーマーアーキテクチャであるATISSを紹介する。
この定式化は、ATISSが完全に自動的な部屋レイアウト合成を超えて一般的に有用になるため、より自然なものであると我々は主張する。
本モデルは,ラベル付き3Dバウンディングボックスのみを監督として,自動回帰生成モデルとしてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-10-07T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。