論文の概要: DeBaRA: Denoising-Based 3D Room Arrangement Generation
- arxiv url: http://arxiv.org/abs/2409.18336v2
- Date: Tue, 5 Nov 2024 16:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:21:45.158399
- Title: DeBaRA: Denoising-Based 3D Room Arrangement Generation
- Title(参考訳): DeBaRA:Denoising-based 3D Room Arrangement Generation
- Authors: Léopold Maillard, Nicolas Sereyjol-Garros, Tom Durand, Maks Ovsjanikov,
- Abstract要約: 有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
- 参考スコア(独自算出の注目度): 22.96293773013579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating realistic and diverse layouts of furnished indoor 3D scenes unlocks multiple interactive applications impacting a wide range of industries. The inherent complexity of object interactions, the limited amount of available data and the requirement to fulfill spatial constraints all make generative modeling for 3D scene synthesis and arrangement challenging. Current methods address these challenges autoregressively or by using off-the-shelf diffusion objectives by simultaneously predicting all attributes without 3D reasoning considerations. In this paper, we introduce DeBaRA, a score-based model specifically tailored for precise, controllable and flexible arrangement generation in a bounded environment. We argue that the most critical component of a scene synthesis system is to accurately establish the size and position of various objects within a restricted area. Based on this insight, we propose a lightweight conditional score-based model designed with 3D spatial awareness at its core. We demonstrate that by focusing on spatial attributes of objects, a single trained DeBaRA model can be leveraged at test time to perform several downstream applications such as scene synthesis, completion and re-arrangement. Further, we introduce a novel Self Score Evaluation procedure so it can be optimally employed alongside external LLM models. We evaluate our approach through extensive experiments and demonstrate significant improvement upon state-of-the-art approaches in a range of scenarios.
- Abstract(参考訳): 屋内3Dシーンのリアルで多様なレイアウトを生成することで、幅広い産業に影響を及ぼす複数のインタラクティブなアプリケーションを解き放つ。
オブジェクトの相互作用の本質的な複雑さ、利用可能なデータ量の制限、空間的制約を満たす必要性は、すべて3次元シーン合成とアレンジメントのための生成的モデリングを困難にしている。
現在の手法では,3次元推論を考慮せずに全ての属性を同時に予測することで,自己回帰的あるいは既成拡散目標を用いてこれらの課題に対処している。
本稿では,有界環境における精度,制御性,フレキシブルな配置生成に適したスコアベースモデルであるDeBaRAを紹介する。
シーン合成システムの最も重要な要素は,制限領域内における様々な物体のサイズと位置を正確に決定することである。
この知見に基づいて,3次元空間認識を中心とした軽量な条件付きスコアベースモデルを提案する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
さらに,新たな自己スコア評価手法を導入し,外部LLMモデルと最適に併用できるようにする。
我々は、広範囲な実験を通してアプローチを評価し、様々なシナリオにおける最先端のアプローチに対する顕著な改善を実証する。
関連論文リスト
- MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。
単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。
マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-01-06T17:43:26Z) - ObjVariantEnsemble: Advancing Point Cloud LLM Evaluation in Challenging Scenes with Subtly Distinguished Objects [1.5408065585641535]
3Dシーンの理解は重要な課題であり、近年、エンボディドAIを強化するために、ポイントクラウドの3D表現とテキストとの整合性に関する研究の関心が高まっている。
総合的な3Dベンチマークが欠如しているため、現実世界のシーン、特に微妙に区別されたオブジェクトに挑戦するシーンにおける3Dモデルの能力はいまだに十分に調査されていない。
論文 参考訳(メタデータ) (2024-12-19T13:27:58Z) - MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。
本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。
合成画像の可視性を評価するために,クロスビューの一貫性と新しいビューオブジェクト配置を評価する。
論文 参考訳(メタデータ) (2024-12-16T05:23:45Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - ATISS: Autoregressive Transformers for Indoor Scene Synthesis [112.63708524926689]
我々は,合成室内環境を構築するための新しい自己回帰型トランスフォーマーアーキテクチャであるATISSを紹介する。
この定式化は、ATISSが完全に自動的な部屋レイアウト合成を超えて一般的に有用になるため、より自然なものであると我々は主張する。
本モデルは,ラベル付き3Dバウンディングボックスのみを監督として,自動回帰生成モデルとしてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-10-07T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。