論文の概要: MAG-3D: Multi-Agent Grounded Reasoning for 3D Understanding
- arxiv url: http://arxiv.org/abs/2604.09167v1
- Date: Fri, 10 Apr 2026 09:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.811321
- Title: MAG-3D: Multi-Agent Grounded Reasoning for 3D Understanding
- Title(参考訳): MAG-3D:3次元理解のためのマルチエージェント接地推論
- Authors: Henry Zheng, Chenyue Fang, Rui Huang, Siyuan Wei, Xiao Liu, Gao Huang,
- Abstract要約: 我々は,既製の視覚言語モデルを用いたグラウンドド3D推論のためのトレーニング不要なマルチエージェントフレームワークMAG-3Dを提案する。
本稿では,タスクを分解して全体推論プロセスを編成する計画エージェントと,広範囲な3次元シーン観測から自由形式の3Dグラウンドと関連するフレーム検索を行うグラウンド処理エージェントと,実行可能なプログラムを通して柔軟な幾何学的推論と明示的な検証を行うコーディングエージェントを提案する。
- 参考スコア(独自算出の注目度): 25.15914325538431
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have achieved strong performance in multimodal understanding and reasoning, yet grounded reasoning in 3D scenes remains underexplored. Effective 3D reasoning hinges on accurate grounding: to answer open-ended queries, a model must first identify query-relevant objects and regions in a complex scene, and then reason about their spatial and geometric relationships. Recent approaches have demonstrated strong potential for grounded 3D reasoning. However, they often rely on in-domain tuning or hand-crafted reasoning pipelines, which limit their flexibility and zero-shot generalization to novel environments. In this work, we present MAG-3D, a training-free multi-agent framework for grounded 3D reasoning with off-the-shelf VLMs. Instead of relying on task-specific training or fixed reasoning procedures, MAG-3D dynamically coordinates expert agents to address the key challenges of 3D reasoning. Specifically, we propose a planning agent that decomposes the task and orchestrates the overall reasoning process, a grounding agent that performs free-form 3D grounding and relevant frame retrieval from extensive 3D scene observations, and a coding agent that conducts flexible geometric reasoning and explicit verification through executable programs. This multi-agent collaborative design enables flexible training-free 3D grounded reasoning across diverse scenes and achieves state-of-the-art performance on challenging benchmarks.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダルな理解と推論において高い性能を達成しているが、3Dシーンでの推論は未解明のままである。
オープンなクエリに答えるために、モデルはまず複雑なシーンにおけるクエリ関連オブジェクトや領域を特定し、その空間的および幾何学的関係を推論する必要があります。
近年のアプローチは、接地型3次元推論の強い可能性を示している。
しかし、それらはしばしばドメイン内のチューニングや手作りの推論パイプラインに依存し、柔軟性とゼロショットの一般化を新しい環境に制限する。
本研究では,既製のVLMを用いたグラウンドド3D推論のためのトレーニング不要なマルチエージェントフレームワークMAG-3Dを提案する。
MAG-3Dは、タスク固有のトレーニングや固定的な推論手順に頼る代わりに、専門家エージェントを動的にコーディネートして、3D推論の重要な課題に対処する。
具体的には、タスクを分解して全体推論プロセスを編成する計画エージェントと、広範囲な3Dシーンの観察から自由な3Dグラウンドと関連するフレーム検索を行う接地エージェントと、実行可能なプログラムを通して柔軟な幾何学的推論と明示的な検証を行う符号化エージェントを提案する。
このマルチエージェントのコラボレーティブデザインは、多様なシーンにまたがるフレキシブルなトレーニングフリーな3Dグラウンド推論を可能にし、挑戦的なベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views [41.05815610513033]
3DThinkerは、画像に埋め込まれたリッチな幾何学的情報を、人間のように推論しながら活用するフレームワークだ。
私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
論文 参考訳(メタデータ) (2025-10-21T13:36:58Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities [23.18281583681258]
我々は3D推論基底と呼ばれる新しいタスクを提案し、新しいベンチマークScanReasonを導入する。
ScanReasonは、推論とグラウンドの相乗化を必要とする5つの推論タイプから10万以上の質問と回答のペアを提供する。
提案手法は, 推論において, 分岐推論と接地ステップにより, さらなる性能向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T17:59:35Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。