論文の概要: ReSpace: Text-Driven 3D Scene Synthesis and Editing with Preference Alignment
- arxiv url: http://arxiv.org/abs/2506.02459v2
- Date: Tue, 10 Jun 2025 20:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.242101
- Title: ReSpace: Text-Driven 3D Scene Synthesis and Editing with Preference Alignment
- Title(参考訳): ReSpace: テキスト駆動の3Dシーン合成と選好アライメントによる編集
- Authors: Martin JJ. Bucher, Iro Armeni,
- Abstract要約: ReSpaceはテキスト駆動型屋内シーン合成と編集のための生成フレームワークである。
教師付き微調整と選好アライメントを組み合わせた二段階学習手法を応用した。
シーン編集にはゼロショットLLMを用いてオブジェクトの削除と追加のプロンプトを行う。
- 参考スコア(独自算出の注目度): 1.0918065824771606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene synthesis and editing has emerged as a promising direction in computer graphics. Current trained approaches for 3D indoor scenes either oversimplify object semantics through one-hot class encodings (e.g., 'chair' or 'table'), require masked diffusion for editing, ignore room boundaries, or rely on floor plan renderings that fail to capture complex layouts. In contrast, LLM-based methods enable richer semantics via natural language (e.g., 'modern studio with light wood furniture') but do not support editing, remain limited to rectangular layouts or rely on weak spatial reasoning from implicit world models. We introduce ReSpace, a generative framework for text-driven 3D indoor scene synthesis and editing using autoregressive language models. Our approach features a compact structured scene representation with explicit room boundaries that frames scene editing as a next-token prediction task. We leverage a dual-stage training approach combining supervised fine-tuning and preference alignment, enabling a specially trained language model for object addition that accounts for user instructions, spatial geometry, object semantics, and scene-level composition. For scene editing, we employ a zero-shot LLM to handle object removal and prompts for addition. We further introduce a novel voxelization-based evaluation that captures fine-grained geometry beyond 3D bounding boxes. Experimental results surpass state-of-the-art on object addition while maintaining competitive results on full scene synthesis.
- Abstract(参考訳): シーンの合成と編集はコンピュータグラフィックスにおいて有望な方向として現れてきた。
3D屋内シーンの現在の訓練されたアプローチは、1ホットクラスのエンコーディング(例: 'chair' または 'table')を通じてオブジェクトセマンティクスを単純化し、編集や部屋の境界を無視したり、複雑なレイアウトをキャプチャできないフロアプランレンダリングに依存する必要がある。
対照的に、LLMベースの手法は、自然言語によるより豊かな意味論(例えば「軽い木製家具を備えた現代スタジオ」)を可能にするが、編集はサポートせず、長方形のレイアウトに限られるか、暗黙の世界モデルからの弱い空間的推論に依存している。
本稿では,テキスト駆動型屋内シーン合成と自動回帰言語モデルを用いた編集のための生成フレームワークReSpaceを紹介する。
提案手法では,空間境界が明示的であるコンパクトなシーン表現を特徴とし,シーン編集を次世代の予測タスクとする。
教師付き微調整と嗜好アライメントを組み合わせた二段階学習手法を応用し,ユーザ指示,空間幾何学,オブジェクトの意味論,シーンレベルの構成を考慮に入れた,オブジェクト追加のための特別に訓練された言語モデルを実現する。
シーン編集にはゼロショットLLMを用いてオブジェクトの削除と追加のプロンプトを行う。
さらに,3次元境界ボックスを超えて微細な形状をキャプチャする,新しいボキセル化に基づく評価手法を提案する。
実験結果は、全シーン合成における競合結果を維持しながら、オブジェクト加算の最先端を超越した。
関連論文リスト
- Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation [36.44409268300039]
Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
論文 参考訳(メタデータ) (2025-05-05T17:59:58Z) - FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors [67.26107732326948]
FreeInsertは空間配置からオブジェクト生成を分離する新しいフレームワークである。
意味的コヒーレント、空間的正確、視覚的にリアルな3D挿入を実現する。
論文 参考訳(メタデータ) (2025-05-02T14:53:56Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Set-the-Scene: Global-Local Training for Generating Controllable NeRF
Scenes [68.14127205949073]
オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。
プロキシを使うことで、個々の独立オブジェクトの配置を調整するなど、さまざまな編集オプションが実現可能であることを示す。
その結果,Set-the-Sceneはシーンの合成と操作に強力なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-23T17:17:29Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Learning Object-Compositional Neural Radiance Field for Editable Scene
Rendering [42.37007176376849]
本稿では,物体合成型ニューラルラジアンス場を学習し,クラスタ化された実世界のシーンをリアルにレンダリングするニューラルシーンレンダリングシステムを提案する。
密集したシーンでのトレーニングを生き残るために, 密集した領域における3次元空間のあいまいさを解消し, それぞれの物体の鋭い境界を学習するためのシーン誘導型トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-09-04T11:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。