論文の概要: SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
- arxiv url: http://arxiv.org/abs/2509.20414v1
- Date: Wed, 24 Sep 2025 09:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.515227
- Title: SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
- Title(参考訳): SceneWeaver: 拡張性・自己反射性エージェントを用いたオールインワン3次元シーン合成
- Authors: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang,
- Abstract要約: SceneWeaverは、ツールベースの反復改善を通じて多様なシーン合成パラダイムを統合するフレームワークである。
セマンティックな矛盾を特定し、ターゲットとするツールを呼び出し、連続したイテレーションで環境を更新できる。
多様な指示で複雑なシーンを効果的に一般化し、汎用的な3D環境生成への一歩を踏み出した。
- 参考スコア(独自算出の注目度): 28.12183839499528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.
- Abstract(参考訳): 室内シーンの合成は、視覚的に現実的であるだけでなく、物理的に可視であり、機能的に多様である3D環境を必要とするEmbodied AIの台頭によって、ますます重要になっている。
最近のアプローチには高度な視覚的忠実さがあるが、それらは固定されたシーンカテゴリに制約され、十分なオブジェクトレベルの詳細と物理的整合性が欠如し、複雑なユーザーインストラクションとの整合に苦慮していることが多い。
本稿では,ツールをベースとした反復改良により,多様なシーン合成パラダイムを統一する反射型エージェントフレームワークであるSceneWeaverを紹介する。
コアとなるSceneWeaverでは、データ駆動生成モデルから視覚的およびLCMベースのメソッドまで、さまざまな拡張可能なシーン生成ツールを選択するために、言語モデルベースのプランナーを使用している。
このクローズドループのソート-アクト-リフレクト設計により、エージェントはセマンティックな不整合を識別し、ターゲットツールを呼び出し、連続したイテレーションで環境を更新できる。
一般的な室型とオープンな室型の両方に関する大規模な実験では、SceneWeaverは物理的、視覚的、セマンティックなメトリクスに関する事前の手法よりも優れているだけでなく、多様な指示を持つ複雑なシーンに効果的に一般化し、汎用的な3D環境生成への一歩を踏み出した。
プロジェクトウェブサイト:https://scene-weaver.github.io/.com
関連論文リスト
- IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation [36.44409268300039]
Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
論文 参考訳(メタデータ) (2025-05-05T17:59:58Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。