論文の概要: DeBaRA: Denoising-Based 3D Room Arrangement Generation
- arxiv url: http://arxiv.org/abs/2409.18336v2
- Date: Tue, 5 Nov 2024 16:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:21:45.158399
- Title: DeBaRA: Denoising-Based 3D Room Arrangement Generation
- Title(参考訳): DeBaRA:Denoising-based 3D Room Arrangement Generation
- Authors: Léopold Maillard, Nicolas Sereyjol-Garros, Tom Durand, Maks Ovsjanikov,
- Abstract要約: 有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
- 参考スコア(独自算出の注目度): 22.96293773013579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating realistic and diverse layouts of furnished indoor 3D scenes unlocks multiple interactive applications impacting a wide range of industries. The inherent complexity of object interactions, the limited amount of available data and the requirement to fulfill spatial constraints all make generative modeling for 3D scene synthesis and arrangement challenging. Current methods address these challenges autoregressively or by using off-the-shelf diffusion objectives by simultaneously predicting all attributes without 3D reasoning considerations. In this paper, we introduce DeBaRA, a score-based model specifically tailored for precise, controllable and flexible arrangement generation in a bounded environment. We argue that the most critical component of a scene synthesis system is to accurately establish the size and position of various objects within a restricted area. Based on this insight, we propose a lightweight conditional score-based model designed with 3D spatial awareness at its core. We demonstrate that by focusing on spatial attributes of objects, a single trained DeBaRA model can be leveraged at test time to perform several downstream applications such as scene synthesis, completion and re-arrangement. Further, we introduce a novel Self Score Evaluation procedure so it can be optimally employed alongside external LLM models. We evaluate our approach through extensive experiments and demonstrate significant improvement upon state-of-the-art approaches in a range of scenarios.
- Abstract(参考訳): 屋内3Dシーンのリアルで多様なレイアウトを生成することで、幅広い産業に影響を及ぼす複数のインタラクティブなアプリケーションを解き放つ。
オブジェクトの相互作用の本質的な複雑さ、利用可能なデータ量の制限、空間的制約を満たす必要性は、すべて3次元シーン合成とアレンジメントのための生成的モデリングを困難にしている。
現在の手法では,3次元推論を考慮せずに全ての属性を同時に予測することで,自己回帰的あるいは既成拡散目標を用いてこれらの課題に対処している。
本稿では,有界環境における精度,制御性,フレキシブルな配置生成に適したスコアベースモデルであるDeBaRAを紹介する。
シーン合成システムの最も重要な要素は,制限領域内における様々な物体のサイズと位置を正確に決定することである。
この知見に基づいて,3次元空間認識を中心とした軽量な条件付きスコアベースモデルを提案する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
さらに,新たな自己スコア評価手法を導入し,外部LLMモデルと最適に併用できるようにする。
我々は、広範囲な実験を通してアプローチを評価し、様々なシナリオにおける最先端のアプローチに対する顕著な改善を実証する。
関連論文リスト
- CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design [35.11283253765395]
室内シーン合成のための新しい手法として,分解した立方体プリミティブをシーン内の3次元オブジェクトに配置する手法を提案する。
提案手法はCuboid Arrangement and Scene AssemblyのCasaGPTと呼ばれ, 自動回帰モデルを用いてキューブを逐次配置し, 物理的に可視なシーンを生成する。
論文 参考訳(メタデータ) (2025-04-28T04:35:04Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - 3D Scene Understanding Through Local Random Access Sequence Modeling [12.689247678229382]
単一画像からの3Dシーン理解は、コンピュータビジョンにおいて重要な問題である。
本稿では、LRAS(Local Random Access Sequence)モデリングと呼ばれる自己回帰生成手法を提案する。
光学フローを3次元シーン編集の中間表現として利用することにより、LRASが最先端の新規ビュー合成と3次元オブジェクト操作機能を実現することを示す。
論文 参考訳(メタデータ) (2025-04-04T18:59:41Z) - MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。
単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。
マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-01-06T17:43:26Z) - MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。
本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。
提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文 参考訳(メタデータ) (2024-12-16T05:23:45Z) - LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation [32.27869897947267]
動的3Dオブジェクトを表現するための新しいアプローチであるLEIAを紹介する。
我々の手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、現在の状態にハイパーネットワークを条件付けることである。
これらの状態の補間により、以前は見えなかった3次元空間に新しい調音構成を生成することができる。
論文 参考訳(メタデータ) (2024-09-10T17:59:53Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - ATISS: Autoregressive Transformers for Indoor Scene Synthesis [112.63708524926689]
我々は,合成室内環境を構築するための新しい自己回帰型トランスフォーマーアーキテクチャであるATISSを紹介する。
この定式化は、ATISSが完全に自動的な部屋レイアウト合成を超えて一般的に有用になるため、より自然なものであると我々は主張する。
本モデルは,ラベル付き3Dバウンディングボックスのみを監督として,自動回帰生成モデルとしてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-10-07T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。