論文の概要: SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2603.12238v1
- Date: Thu, 12 Mar 2026 17:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.277196
- Title: SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
- Title(参考訳): Scene Assistant:オープンボキャブラリ3次元シーン生成のための視覚フィードバックエージェント
- Authors: Jun Luo, Jiaxiang Tang, Ruijie Lu, Gang Zeng,
- Abstract要約: オープンな3Dシーン生成用に設計されたビジュアルフィードバック駆動エージェントであるSceneAssistantを紹介する。
我々のフレームワークは、視覚言語モデルの空間的推論と計画能力とともに、現代の3次元オブジェクト生成モデルを活用する。
提案手法では,エージェントに対して,自然言語コマンドに基づいて既存のシーンを編集するように指示することができる。
- 参考スコア(独自算出の注目度): 27.16255874731512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D scene generation from natural language is highly desirable for digital content creation. However, existing methods are largely domain-restricted or reliant on predefined spatial relationships, limiting their capacity for unconstrained, open-vocabulary 3D scene synthesis. In this paper, we introduce SceneAssistant, a visual-feedback-driven agent designed for open-vocabulary 3D scene generation. Our framework leverages modern 3D object generation model along with the spatial reasoning and planning capabilities of Vision-Language Models (VLMs). To enable open-vocabulary scene composition, we provide the VLMs with a comprehensive set of atomic operations (e.g., Scale, Rotate, FocusOn). At each interaction step, the VLM receives rendered visual feedback and takes actions accordingly, iteratively refining the scene to achieve more coherent spatial arrangements and better alignment with the input text. Experimental results demonstrate that our method can generate diverse, open-vocabulary, and high-quality 3D scenes. Both qualitative analysis and quantitative human evaluations demonstrate the superiority of our approach over existing methods. Furthermore, our method allows users to instruct the agent to edit existing scenes based on natural language commands. Our code is available at https://github.com/ROUJINN/SceneAssistant
- Abstract(参考訳): 自然言語からのテキストから3Dのシーン生成は、デジタルコンテンツ作成に非常に望ましい。
しかし、既存の手法は領域制限や事前定義された空間関係に依存しており、制約のないオープンな3Dシーン合成の能力を制限している。
本稿では,オープンな3Dシーン生成のための視覚フィードバック型エージェントであるSceneAssistantを紹介する。
我々のフレームワークは、視覚言語モデル(VLM)の空間的推論と計画能力とともに、現代の3次元オブジェクト生成モデルを活用する。
オープン語彙シーンの構成を可能にするため、VLMに包括的なアトミック操作(例えば、スケール、ロータテ、フォーカスオン)を提供する。
各インタラクションステップにおいて、VLMはレンダリングされた視覚フィードバックを受け取り、シーンを反復的に精製し、よりコヒーレントな空間配置を実現し、入力テキストとの整合性が向上する。
実験結果から,本手法は多種多様でオープンな3Dシーンを生成できることが示された。
定性的分析と定量的人間評価の両方が、既存の手法よりもアプローチの優位性を示している。
さらに,提案手法では,自然言語コマンドに基づいて既存のシーンを編集するようエージェントに指示することができる。
私たちのコードはhttps://github.com/ROUJINN/SceneAssistantで利用可能です。
関連論文リスト
- Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes [18.232310061758298]
3次元屋内シーン生成は,デジタルおよび実環境の設計において重要な課題である。
このタスクの既存の方法は、これらの属性に対して非常に限定的な制御を示す。
提案手法であるDecorumにより,自然言語によるシーン生成プロセスの制御が可能となる。
論文 参考訳(メタデータ) (2025-03-23T17:48:44Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。