論文の概要: Global-Local Tree Search for Language Guided 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2503.18476v1
- Date: Mon, 24 Mar 2025 09:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:17.18519
- Title: Global-Local Tree Search for Language Guided 3D Scene Generation
- Title(参考訳): 言語指導型3次元シーン生成のためのグローバルローカルツリー探索
- Authors: Wei Deng, Mengshi Qi, Huadong Ma,
- Abstract要約: VLM(Large Vision-Language Models)は、様々な分野において大きな成功を収めている。
本稿では,この課題を空間的・レイアウト的共通感覚制約を考慮した計画問題とみなす。
グローバルに、各オブジェクトを逐次配置し、各配置プロセス中に複数の配置を探索する。
我々は、絵文字グリッドでVLMをプロンプトし、VLMは、絵文字の名前で位置を記述することによって、オブジェクトに対して合理的な位置を生成する。
- 参考スコア(独自算出の注目度): 28.003757318206087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .
- Abstract(参考訳): GPT-4のような大型ビジョンランゲージモデル(VLM)は、様々な分野で大きな成功を収めている。
しかし、VLMを用いた3次元屋内シーン生成に関する研究はほとんどない。
本稿では,この課題を空間的・レイアウト的共通感覚制約を考慮した計画問題とみなす。
VLMの問題を解決するために,我々は新しいグローバルな木探索アルゴリズムを提案する。
グローバルに、各オブジェクトを逐次配置し、各配置プロセス中に複数の配置を探索し、問題空間をツリーとして表現する。
木々の深さを低減するため,空間レベル,領域レベル,フロアオブジェクトレベル,支持対象レベルなどのシーン構造を階層的に分解する。
アルゴリズムは,異なる領域のフロアオブジェクトを独立に生成し,異なるフロアオブジェクト上に配置された支持オブジェクトを生成する。
局所的には、各オブジェクトの配置であるサブタスクも複数のステップに分解する。
アルゴリズムは問題空間のツリーを探索する。
VLMモデルを利用してオブジェクトの位置を生成するため、トップダウンのビュースペースを高密度グリッドとして識別し、各セルに多様な絵文字を埋めてセルを区別する。
我々は、絵文字グリッドでVLMをプロンプトし、VLMは、絵文字の名前で位置を記述することによって、オブジェクトに対して合理的な位置を生成する。
定量的および定性的な実験結果から,本手法は最先端の手法よりも高精細な3Dシーンを生成する。
私たちのソースコードはhttps://github.com/dw-dengwei/TreeSearchGenで公開されています。
関連論文リスト
- MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z) - QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding [6.455827396022967]
計画やナビゲーションのようなロボットのタスクは、シーンの階層的な意味理解を必要とする。
この問題を解決するために2段階のパイプラインを導入します。
私たちは、CLIPに準拠した機能と、それを含むオブジェクトに基づいて、ルームインスタンス毎にセマンティックラベルを生成します。
論文 参考訳(メタデータ) (2024-04-09T16:42:54Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - SceneHGN: Hierarchical Graph Networks for 3D Indoor Scene Generation
with Fine-Grained Geometry [92.24144643757963]
3D屋内シーンは、インテリアデザインからゲーム、バーチャルおよび拡張現実に至るまで、コンピュータグラフィックスで広く使われている。
高品質な3D屋内シーンは、専門知識が必要であり、手動で高品質な3D屋内シーンを設計するのに時間を要する。
SCENEHGNは3次元屋内シーンの階層的なグラフネットワークであり,部屋レベルからオブジェクトレベルまでの全階層を考慮し,最後にオブジェクト部分レベルに展開する。
提案手法は, 立体形状の細かな家具を含む, 可塑性3次元室内容を直接生成し, 直接的に生成することができる。
論文 参考訳(メタデータ) (2023-02-16T15:31:59Z) - Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-12-07T21:04:34Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Multi-Resolution POMDP Planning for Multi-Object Search in 3D [26.683481431467783]
フラストタル形状の視野を持つ3次元領域における多対象探索のためのPOMDPの定式化について述べる。
我々は,対象物体の異なる解像度レベルでの不確かさを捉えるために,新しいオクツリーに基づく信念表現を設計する。
移動ロボットによる2つの10m$2×2$m領域の異なる高さに配置された物体を、ベースを移動させ、胴体を作動させることにより、その位置を推定する手法を実証する。
論文 参考訳(メタデータ) (2020-05-06T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。