論文の概要: NavBench: Probing Multimodal Large Language Models for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2506.01031v1
- Date: Sun, 01 Jun 2025 14:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.901139
- Title: NavBench: Probing Multimodal Large Language Models for Embodied Navigation
- Title(参考訳): NavBench: 身体的ナビゲーションのためのマルチモーダルな大規模言語モデルの提案
- Authors: Yanyuan Qiao, Haodong Hong, Wenqi Lyu, Dong An, Siqi Zhang, Yutong Xie, Xinyu Wang, Qi Wu,
- Abstract要約: NavBenchは、ゼロショット設定下でMLLMの実施したナビゲーション機能を評価するためのベンチマークである。
実世界の展開を支援するため,MLLMの出力をロボットアクションに変換するパイプラインを導入する。
- 参考スコア(独自算出の注目度): 21.787627598744358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong generalization in vision-language tasks, yet their ability to understand and act within embodied environments remains underexplored. We present NavBench, a benchmark to evaluate the embodied navigation capabilities of MLLMs under zero-shot settings. NavBench consists of two components: (1) navigation comprehension, assessed through three cognitively grounded tasks including global instruction alignment, temporal progress estimation, and local observation-action reasoning, covering 3,200 question-answer pairs; and (2) step-by-step execution in 432 episodes across 72 indoor scenes, stratified by spatial, cognitive, and execution complexity. To support real-world deployment, we introduce a pipeline that converts MLLMs' outputs into robotic actions. We evaluate both proprietary and open-source models, finding that GPT-4o performs well across tasks, while lighter open-source models succeed in simpler cases. Results also show that models with higher comprehension scores tend to achieve better execution performance. Providing map-based context improves decision accuracy, especially in medium-difficulty scenarios. However, most models struggle with temporal understanding, particularly in estimating progress during navigation, which may pose a key challenge.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて強力な一般化を証明しているが、具体化された環境内での理解と行動の能力は未熟である。
ゼロショット設定下でMLLMの具体化ナビゲーション能力を評価するベンチマークであるNavBenchを提案する。
NavBenchは,(1)大域的指示アライメント,時間的進行推定,局所的観察行動推論を含む3つの認知的タスクを通じて評価されたナビゲーション理解,(2)72の屋内シーンにまたがる432エピソードにおけるステップバイステップの実行,そして空間的,認知的,実行の複雑さによって階層化される。
実世界の展開を支援するため,MLLMの出力をロボットアクションに変換するパイプラインを導入する。
我々はプロプライエタリモデルとオープンソースモデルの両方を評価し、GPT-4oはタスク間でうまく機能し、より軽量なオープンソースモデルはより単純なケースで成功することを示した。
また,より理解度の高いモデルでは,実行性能が向上する傾向が示唆された。
マップベースのコンテキストを提供することで、特に中程度の難解なシナリオにおいて、決定精度が向上する。
しかし、ほとんどのモデルは時間的理解に苦慮しており、特に航海中の進捗を推定することは重要な課題となる。
関連論文リスト
- PointArena: Probing Multimodal Grounding Through Language-Guided Pointing [79.80132157576978]
ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
論文 参考訳(メタデータ) (2025-05-15T06:04:42Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks [24.690910258151693]
既存のボディードナビゲーションのモデルは、現実の世界で実践的なジェネラリストとして機能するには足りていない。
多様な具体的ナビゲーションタスクを統合するために設計された,ビデオベースの視覚言語アクションモデルであるUni-NaVidを提案する。
Uni-NaVidは、一般的に使われているすべてのナビゲーションタスクの入力および出力データ構成によってこれを達成している。
論文 参考訳(メタデータ) (2024-12-09T05:55:55Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。