論文の概要: Causal Reasoning Elicits Controllable 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2509.15249v1
- Date: Thu, 18 Sep 2025 01:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.818072
- Title: Causal Reasoning Elicits Controllable 3D Scene Generation
- Title(参考訳): 因果推論による3次元シーン生成の制御
- Authors: Shen Chen, Ruiyu Zhao, Jiale Zhou, Zongkai Wu, Jenq-Neng Hwang, Lei Li,
- Abstract要約: CausalStructは3Dシーン生成に因果推論を組み込む新しいフレームワークである。
ノードがオブジェクトや属性を表現する因果グラフを構築し、エッジが因果依存性と物理的制約をエンコードする。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
- 参考スコア(独自算出の注目度): 35.22855710229319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing 3D scene generation methods often struggle to model the complex logical dependencies and physical constraints between objects, limiting their ability to adapt to dynamic and realistic environments. We propose CausalStruct, a novel framework that embeds causal reasoning into 3D scene generation. Utilizing large language models (LLMs), We construct causal graphs where nodes represent objects and attributes, while edges encode causal dependencies and physical constraints. CausalStruct iteratively refines the scene layout by enforcing causal order to determine the placement order of objects and applies causal intervention to adjust the spatial configuration according to physics-driven constraints, ensuring consistency with textual descriptions and real-world dynamics. The refined scene causal graph informs subsequent optimization steps, employing a Proportional-Integral-Derivative(PID) controller to iteratively tune object scales and positions. Our method uses text or images to guide object placement and layout in 3D scenes, with 3D Gaussian Splatting and Score Distillation Sampling improving shape accuracy and rendering stability. Extensive experiments show that CausalStruct generates 3D scenes with enhanced logical coherence, realistic spatial interactions, and robust adaptability.
- Abstract(参考訳): 既存の3Dシーン生成手法は、複雑な論理的依存関係とオブジェクト間の物理的な制約をモデル化するのに苦労し、動的で現実的な環境に適応する能力を制限する。
因果推論を3次元シーン生成に組み込む新しいフレームワークCausalStructを提案する。
大規模言語モデル(LLM)を用いて,ノードがオブジェクトや属性を表現する因果グラフを構築し,エッジが因果依存性や物理的制約をエンコードする。
CausalStructは、オブジェクトの配置順序を決定するために因果順序を強制することにより、シーンレイアウトを反復的に洗練し、物理駆動的な制約に従って空間構成を調整するために因果介入を適用し、テキスト記述や実世界のダイナミクスとの整合性を確保する。
改良されたシーン因果グラフは、オブジェクトのスケールと位置を反復的にチューニングするために、Proportional-Integral-Derivative(PID)コントローラを使用する、その後の最適化手順を通知する。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
大規模な実験により、CausalStructは、拡張された論理コヒーレンス、現実的な空間的相互作用、堅牢な適応性を持つ3Dシーンを生成することが示された。
関連論文リスト
- PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement [89.35154754765502]
PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-02-16T17:55:25Z) - SceneLinker: Compositional 3D Scene Generation via Semantic Scene Graph from RGB Sequences [12.771171646896468]
SceneLinkerはRGBシーケンスからセマンティックシーングラフによって構成的な3Dシーンを生成するフレームワークである。
我々の研究により、ユーザーはシーングラフを通して物理的な環境から一貫した3D空間を生成でき、空間的混合現実感(MR)コンテンツを作成することができる。
論文 参考訳(メタデータ) (2026-02-03T01:22:07Z) - RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - Error-Driven Scene Editing for 3D Grounding in Large Language Models [71.41120775319088]
近年の3D-LLMの進歩にもかかわらず、3D環境における視覚的および空間的要素に正確に接地する言語に限られている。
この制限は、3Dリソースの不足による空間的理解よりも、言語推論に焦点を当てたトレーニングデータに起因している。
本稿では,これらのバイアスを緩和する正確な視覚的カウンターファクトを生成するための重要なメカニズムとして,3Dシーン編集を提案する。
論文 参考訳(メタデータ) (2025-11-18T03:13:29Z) - Text-to-Scene with Large Reasoning Models [35.61634772862795]
Reason-3Dは大きな推論モデル(LRM)を利用したテキスト・ツー・シーンモデルである
Reason-3Dは、物理的、機能的、コンテキスト的属性をカバーするキャプションを使用してオブジェクト検索を統合する。
人間の評価された視覚的忠実度、制約への順守、資産検索品質において、従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-30T11:08:11Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文 参考訳(メタデータ) (2025-02-18T14:29:52Z) - LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation [5.424048651554831]
テキストによる高品質で物理的に一貫した構成シーン生成を容易にするために,3Dガウススプラッティング(3DGS)を利用するフレームワークを提案する。
具体的には、テキストプロンプトが与えられた場合、シーングラフに変換し、初期構成型3Dガウスの密度とレイアウトを適応的に調整する。
シーングラフから指示された依存関係を抽出することにより、現実性と柔軟性の両方を確保するために、物理的およびレイアウトエネルギーを調整します。
論文 参考訳(メタデータ) (2025-02-04T02:51:37Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。