論文の概要: Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2505.02836v1
- Date: Mon, 05 May 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.769417
- Title: Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
- Title(参考訳): Scenethesis: 3Dシーン生成のための言語と視覚エージェントフレームワーク
- Authors: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li,
- Abstract要約: Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
- 参考スコア(独自算出の注目度): 36.44409268300039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.
- Abstract(参考訳): インタラクティブな3Dシーンをテキストから合成することは、ゲーム、バーチャルリアリティ、エンボディドAIに不可欠である。
しかし、既存の手法はいくつかの課題に直面している。
学習ベースのアプローチは、小さな屋内データセットに依存し、シーンの多様性とレイアウトの複雑さを制限する。
大きな言語モデル(LLM)は多様なテキストドメインの知識を活用できるが、空間的リアリズムに苦しむため、常識を尊重することができない不自然な物体配置をしばしば生み出す。
私たちの重要な洞察は、LLMに欠けている現実的な空間的ガイダンスを提供することで、視覚知覚がこのギャップを埋めることができるということです。
この目的のために,LLMに基づくシーン計画と視覚誘導型レイアウト改善を統合したトレーニングフリーエージェントフレームワークであるScenethesisを紹介した。
テキストプロンプトが与えられた後、ScenethesisはまずLLMを使用して粗いレイアウトをドラフトする。
そして、視覚モジュールは、画像誘導を生成し、シーン構造を抽出してオブジェクト間の関係をキャプチャすることで、それを洗練する。
次に、最適化モジュールは、正確なポーズアライメントと物理的な可視性を反復的に実施し、オブジェクトの浸透や不安定といったアーティファクトを防止する。
最後に、判定モジュールは空間コヒーレンスを検証する。
総合的な実験により、Scenethesisは多種多様でリアルで、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そして具体化されたAI研究に有用であることが示された。
関連論文リスト
- HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - Set-the-Scene: Global-Local Training for Generating Controllable NeRF
Scenes [68.14127205949073]
オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。
プロキシを使うことで、個々の独立オブジェクトの配置を調整するなど、さまざまな編集オプションが実現可能であることを示す。
その結果,Set-the-Sceneはシーンの合成と操作に強力なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-23T17:17:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Neural Rendering in a Room: Amodal 3D Understanding and Free-Viewpoint
Rendering for the Closed Scene Composed of Pre-Captured Objects [40.59508249969956]
閉シーンに対するニューラルレンダリングを用いたアモーダル3次元シーン理解の新しいパラダイムに基づいて、そのような人間の知覚能力を模倣する新しいソリューションを提案する。
まず, 閉鎖シーンにおける物体の事前の知識を, オフラインステージを通じて学習し, オンラインステージにおいて, 家具の配置のない部屋の理解を容易にする。
オンライン段階において、異なるレイアウトのシーンのパノラマ画像が与えられた場合、我々は、全体論的ニューラルネットワークに基づく最適化フレームワークを使用して、正しい3Dシーンレイアウトを効率的に推定し、リアルな自由視点レンダリングを提供する。
論文 参考訳(メタデータ) (2022-05-05T15:34:09Z) - Learning Object-Compositional Neural Radiance Field for Editable Scene
Rendering [42.37007176376849]
本稿では,物体合成型ニューラルラジアンス場を学習し,クラスタ化された実世界のシーンをリアルにレンダリングするニューラルシーンレンダリングシステムを提案する。
密集したシーンでのトレーニングを生き残るために, 密集した領域における3次元空間のあいまいさを解消し, それぞれの物体の鋭い境界を学習するためのシーン誘導型トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-09-04T11:37:18Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。