論文の概要: Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.04220v1
- Date: Wed, 04 Jun 2025 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.517159
- Title: Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおける空間推論のための知覚誘導型フレームワークStruct2D
- Authors: Fangrui Zhu, Hanhui Wang, Yiming Xie, Jing Gu, Tianye Ding, Jianwei Yang, Huaizu Jiang,
- Abstract要約: Struct2Dは、バードアイビュー(BEV)イメージとオブジェクトマークとオブジェクト中心のメタデータを組み合わせた知覚誘導プロンプトフレームワークである。
その結果,LMMは2次元入力を構造化した場合,驚くほど強い空間推論能力を示すことがわかった。
オープンソースのLMM(Qwen2.5VL)をStruct2D-Set上で微調整し、複数のベンチマークで競合性能を実現する。
- 参考スコア(独自算出の注目度): 24.897120944471347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlocking spatial reasoning in Large Multimodal Models (LMMs) is crucial for enabling intelligent interaction with 3D environments. While prior efforts often rely on explicit 3D inputs or specialized model architectures, we ask: can LMMs reason about 3D space using only structured 2D representations derived from perception? We introduce Struct2D, a perception-guided prompting framework that combines bird's-eye-view (BEV) images with object marks and object-centric metadata, optionally incorporating egocentric keyframes when needed. Using Struct2D, we conduct an in-depth zero-shot analysis of closed-source LMMs (e.g., GPT-o3) and find that they exhibit surprisingly strong spatial reasoning abilities when provided with structured 2D inputs, effectively handling tasks such as relative direction estimation and route planning. Building on these insights, we construct Struct2D-Set, a large-scale instruction tuning dataset with 200K fine-grained QA pairs across eight spatial reasoning categories, generated automatically from 3D indoor scenes. We fine-tune an open-source LMM (Qwen2.5VL) on Struct2D-Set, achieving competitive performance on multiple benchmarks, including 3D question answering, dense captioning, and object grounding. Our approach demonstrates that structured 2D inputs can effectively bridge perception and language reasoning in LMMs-without requiring explicit 3D representations as input. We will release both our code and dataset to support future research.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)における空間的推論のアンロックは,3次元環境とのインテリジェントな相互作用の実現に不可欠である。
従来の取り組みは、しばしば明示的な3D入力や特殊なモデルアーキテクチャに頼っているが、LMMは知覚から派生した構造化された2D表現のみを使用して3D空間を推論できるだろうか?
本稿では,鳥眼視(BEV)画像とオブジェクトマークとオブジェクト中心メタデータを組み合わせた知覚誘導プロンプトフレームワークであるStruct2Dを紹介し,必要に応じてエゴセントリックなキーフレームを任意に組み込む。
Struct2D を用いて,閉鎖音源 LMM (eg , GPT-o3) の詳細なゼロショット解析を行い,構造化された2次元入力を備えると驚くほど強い空間推論能力を示し,相対方向推定や経路計画といったタスクを効果的に処理する。
これらの知見に基づいて,8つの空間的推論カテゴリにまたがる200Kの細粒度QAペアを持つ大規模インストラクションチューニングデータセットStruct2D-Setを構築し,室内3Dシーンから自動生成する。
我々は、Struct2D-Set上にオープンソースのLMM(Qwen2.5VL)を微調整し、3D質問応答、高密度キャプション、オブジェクトグラウンドなど、複数のベンチマークで競合性能を達成する。
提案手法は,LMMにおける認識と言語推論を,入力として明示的な3次元表現を必要とせずに効果的に橋渡しできることを示す。
将来の研究をサポートするために、コードとデータセットの両方をリリースします。
関連論文リスト
- E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [13.678235444299286]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [15.33844114999498]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。