論文の概要: Global-Local Monte Carlo Tree Search in Vision-Language Models for Text-to-3D Indoor Scene Generation
- arxiv url: http://arxiv.org/abs/2606.06002v1
- Date: Thu, 04 Jun 2026 10:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.732633
- Title: Global-Local Monte Carlo Tree Search in Vision-Language Models for Text-to-3D Indoor Scene Generation
- Title(参考訳): テキストから3次元屋内シーン生成のための視覚言語モデルにおけるグローバルローカルモンテカルロ木探索
- Authors: Mengshi Qi, Wei Deng, Xianlin Zhang, Huadong Ma,
- Abstract要約: 本稿では,この課題を空間的・レイアウト的常識に制約された計画問題とみなす。
我々はこれを,既存の逐次的意思決定手法とは異なる,グローバルおよびローカルツリーを用いた木探索問題としてモデル化する。
実験の結果,本手法は最先端の手法よりもリアルな3Dシーンを生成することがわかった。
- 参考スコア(独自算出の注目度): 48.70065830279983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models have achieved significant reasoning performance in various tasks.However, there are few studies on text-to-3D indoor scene generation with LVLMs. The main challenge is that prevailing LVLM-based methods employ chain-of-thought sequential decision mechanisms that cannot revise earlier decisions, causing error propagation.In this paper, we consider the task as a planning problem constrained by spatial and layout commonsense.To solve this problem, we model it as a tree search problem with global and local trees, which differs from existing sequential decision-making approaches.In the global tree, we place each object iteratively and explore multiple attempts like humans furnishing a room, where the problem space is represented as a tree.To effectively search the tree, we propose a hierarchical scene representation and a PRM-guided MCTS method.The hierarchical representation abstracts a scene into room level, region level, floor object level, and supported object level.The PRM-guided MCTS method uses the PRM to prune unnecessary branches and the MCTS algorithm to balance exploration and exploitation to get an optimal solution with fewer attempts.In the local tree, it further decomposes the placement of each object into finer sub-steps, including the specific placement parameters.To make the whole appearance of the scene consistent, we leverage pre-trained diffusion image generative models to predict textures for all the objects in the scene.As existing benchmarks for text-to-3D indoor scene generation remain limited in scale and diversity, we collect a new large-scale diverse dataset that contains 65 scene types and 3,250 instructions with diverse sizes, layouts, and styles, named 3DTindo-bench, to better assess the capability of the state-of-the-art models. Our experiments show that our method generates more realistic 3D scenes than state-of-the-art approaches.
- Abstract(参考訳): LVLMを用いたテキスト・ツー・3D屋内シーン生成に関する研究は少ないが,大規模視覚言語モデルでは様々なタスクにおいて顕著な推論性能が達成されている。
主な課題は, LVLM を用いた手法では, 事前決定の修正が不可能な逐次的決定機構を採用し, 誤りの伝播を引き起こす。本稿では, タスクを空間的・レイアウト的共通性に制約された計画問題とみなす。この問題を解決するために, 従来の逐次的決定手法と異なり, 地球的および局所的決定手法による木探索問題としてモデル化する。グローバルツリーでは, 各オブジェクトを反復的に配置し, 問題空間が木として表現されるような複数の試みを探索する。 効果的に木を探索するために, 階層的なシーン表現と PRM 誘導 MCTS 手法を提案する。階層的抽象表現は, 部屋レベル, 床レベル, オブジェクトレベル, 支持対象レベル, ; PRM MCTS アルゴリズムを不要に利用し, PRM TS アルゴリズムおよび PRM TS アルゴリズムを不必要に活用する。
実験の結果,本手法は最先端の手法よりもリアルな3Dシーンを生成することがわかった。
関連論文リスト
- Global-Local Tree Search in VLMs for 3D Indoor Scene Generation [28.003757318206087]
VLM(Large Vision-Language Models)は、様々な分野において大きな成功を収めている。
本稿では,この課題を空間的・レイアウト的共通感覚制約を考慮した計画問題とみなす。
グローバルに、各オブジェクトを逐次配置し、各配置プロセス中に複数の配置を探索する。
我々は、絵文字グリッドでVLMをプロンプトし、VLMは、絵文字の名前で位置を記述することによって、オブジェクトに対して合理的な位置を生成する。
論文 参考訳(メタデータ) (2025-03-24T09:21:13Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal
Rearrangement [49.888011242939385]
本研究では,シーン内のオブジェクトを並べ替えて,所望のオブジェクトとシーンの配置関係を実現するシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化される。
論文 参考訳(メタデータ) (2023-07-10T17:56:06Z) - Multi-Resolution POMDP Planning for Multi-Object Search in 3D [26.683481431467783]
フラストタル形状の視野を持つ3次元領域における多対象探索のためのPOMDPの定式化について述べる。
我々は,対象物体の異なる解像度レベルでの不確かさを捉えるために,新しいオクツリーに基づく信念表現を設計する。
移動ロボットによる2つの10m$2×2$m領域の異なる高さに配置された物体を、ベースを移動させ、胴体を作動させることにより、その位置を推定する手法を実証する。
論文 参考訳(メタデータ) (2020-05-06T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。