論文の概要: Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.19166v1
- Date: Thu, 19 Mar 2026 17:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.295869
- Title: Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation
- Title(参考訳): 意味と測定:視覚言語ナビゲーションのためのマルチエージェント確率的グラウンドリング
- Authors: Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah, Omkar Patil, Thao Nguyen, Nakul Gopalan,
- Abstract要約: 視覚言語モデル(VLM)は、物理的に定義された空間におけるメートル法制約を推論するために明示的に設計されていないことを示す。
言語クエリを構造化サブコンポーネントに分解し,各コンポーネントをグラウンド化するためにVLMをクエリするエージェントフレームワークであるMAPGを提案する。
MAPGは、これらの基底出力を確率的に構成し、3次元空間において計量的に一貫した行動可能な決定を生成する。
- 参考スコア(独自算出の注目度): 9.838782060508109
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robots collaborating with humans must convert natural language goals into actionable, physically grounded decisions. For example, executing a command such as "go two meters to the right of the fridge" requires grounding semantic references, spatial relations, and metric constraints within a 3D scene. While recent vision language models (VLMs) demonstrate strong semantic grounding capabilities, they are not explicitly designed to reason about metric constraints in physically defined spaces. In this work, we empirically demonstrate that state-of-the-art VLM-based grounding approaches struggle with complex metric-semantic language queries. To address this limitation, we propose MAPG (Multi-Agent Probabilistic Grounding), an agentic framework that decomposes language queries into structured subcomponents and queries a VLM to ground each component. MAPG then probabilistically composes these grounded outputs to produce metrically consistent, actionable decisions in 3D space. We evaluate MAPG on the HM-EQA benchmark and show consistent performance improvements over strong baselines. Furthermore, we introduce a new benchmark, MAPG-Bench, specifically designed to evaluate metric-semantic goal grounding, addressing a gap in existing language grounding evaluations. We also present a real-world robot demonstration showing that MAPG transfers beyond simulation when a structured scene representation is available.
- Abstract(参考訳): 人間と協力するロボットは、自然言語の目標を行動可能で物理的に根ざした決定に変換する必要がある。
例えば、「冷蔵庫の右側に2メートル行く」といったコマンドを実行するには、3Dシーン内で意味的参照、空間的関係、およびメートル法的制約をグラウンド化する必要がある。
近年の視覚言語モデル(VLM)は強力なセマンティックグラウンド機能を示しているが、物理的に定義された空間におけるメートル法制約を推論するように設計されているわけではない。
本研究では,最先端のVLMベースの基底手法が複雑な計量意味論的な言語クエリと競合していることを実証的に示す。
この制限に対処するために、言語クエリを構造化サブコンポーネントに分解し、各コンポーネントをグラウンド化するためにVLMに問い合わせるエージェントフレームワークであるMAPG(Multi-Agent Probabilistic Grounding)を提案する。
MAPGは、これらの基底出力を確率的に構成し、3次元空間において計量的に一貫した行動可能な決定を生成する。
我々は,HM-EQAベンチマーク上でMAPGを評価し,強いベースラインに対して一貫した性能向上を示す。
さらに,既存の言語基盤評価のギャップに対処するため,距離-意味的目標グラウンドの評価に特化して設計された新しいベンチマークMAPG-Benchを導入する。
また、実世界のロボットによるデモでは、構造化シーン表現が利用可能である場合、MAPGはシミュレーションを超えて転送されることを示す。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Words into World: A Task-Adaptive Agent for Language-Guided Spatial Retrieval in AR [8.295391485284298]
マルチモーダル大規模言語モデル(MLLM)と接地型視覚モデルを統合するモジュール型拡張現実(AR)エージェントシステムを提案する。
適応タスクエージェントはMLLMと座標認識ツールを協調して,クエリの複雑さに対処する。
このシステムは、人間のループ内改良を支援しながら、情報密度領域に人間の注意を誘導する。
論文 参考訳(メタデータ) (2025-11-29T03:29:15Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。
我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文 参考訳(メタデータ) (2025-03-20T16:16:10Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。