論文の概要: RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming
- arxiv url: http://arxiv.org/abs/2601.19433v1
- Date: Tue, 27 Jan 2026 10:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.280193
- Title: RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming
- Title(参考訳): RoamScene3D:Adaptive Object-Aware Roamingによる没入型テキスト・ツー・3Dシーン生成
- Authors: Jisheng Chu, Wenrui Li, Rui Zhao, Wangmeng Zuo, Shifeng Chen, Xiaopeng Fan,
- Abstract要約: RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
- 参考スコア(独自算出の注目度): 79.81527946524098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating immersive 3D scenes from texts is a core task in computer vision, crucial for applications in virtual reality and game development. Despite the promise of leveraging 2D diffusion priors, existing methods suffer from spatial blindness and rely on predefined trajectories that fail to exploit the inner relationships among salient objects. Consequently, these approaches are unable to comprehend the semantic layout, preventing them from exploring the scene adaptively to infer occluded content. Moreover, current inpainting models operate in 2D image space, struggling to plausibly fill holes caused by camera motion. To address these limitations, we propose RoamScene3D, a novel framework that bridges the gap between semantic guidance and spatial generation. Our method reasons about the semantic relations among objects and produces consistent and photorealistic scenes. Specifically, we employ a vision-language model (VLM) to construct a scene graph that encodes object relations, guiding the camera to perceive salient object boundaries and plan an adaptive roaming trajectory. Furthermore, to mitigate the limitations of static 2D priors, we introduce a Motion-Injected Inpainting model that is fine-tuned on a synthetic panoramic dataset integrating authentic camera trajectories, making it adaptive to camera motion. Extensive experiments demonstrate that with semantic reasoning and geometric constraints, our method significantly outperforms state-of-the-art approaches in producing consistent and photorealistic scenes. Our code is available at https://github.com/JS-CHU/RoamScene3D.
- Abstract(参考訳): テキストから没入型3Dシーンを生成することは、コンピュータビジョンのコアタスクであり、仮想現実やゲーム開発におけるアプリケーションに不可欠である。
2次元拡散の先行性を活用するという約束にもかかわらず、既存の手法は空間的な盲点に悩まされ、有能な物体間の内的関係を活用できない事前定義された軌道に依存している。
その結果、これらの手法はセマンティックなレイアウトを理解することができず、隠蔽されたコンテンツを推測するためにシーンを適応的に探索することを防ぐことができる。
さらに、現在の塗装モデルは2次元画像空間で動作し、カメラの動きによる穴を確実に埋めるのに苦労している。
これらの制約に対処するために,意味指導と空間生成のギャップを埋める新しいフレームワークであるRoamScene3Dを提案する。
本手法は,オブジェクト間のセマンティックな関係を理由として,一貫性とフォトリアリスティックなシーンを生成する。
具体的には、視覚言語モデル(VLM)を用いて、オブジェクト関係を符号化するシーングラフを構築し、カメラに適切なオブジェクト境界を知覚させ、適応的なローミング軌道を計画する。
さらに,静的な2Dプリミティブの限界を緩和するため,実写カメラの軌跡を組み込んだ合成パノラマデータセットを微調整したモーションインジェクテッド・インペインティングモデルを導入し,カメラの動作に適応させる。
本手法は,意味論的推論と幾何的制約により,一貫したフォトリアリスティックなシーンを生成する上で,最先端のアプローチを著しく上回ることを示す。
私たちのコードはhttps://github.com/JS-CHU/RoamScene3Dで公開されています。
関連論文リスト
- ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。
また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文 参考訳(メタデータ) (2025-10-24T00:52:33Z) - Causal Reasoning Elicits Controllable 3D Scene Generation [35.22855710229319]
CausalStructは3Dシーン生成に因果推論を組み込む新しいフレームワークである。
ノードがオブジェクトや属性を表現する因果グラフを構築し、エッジが因果依存性と物理的制約をエンコードする。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
論文 参考訳(メタデータ) (2025-09-18T01:03:21Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation [36.44409268300039]
Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
論文 参考訳(メタデータ) (2025-05-05T17:59:58Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。