論文の概要: VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents
- arxiv url: http://arxiv.org/abs/2512.24851v2
- Date: Tue, 06 Jan 2026 11:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.358314
- Title: VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents
- Title(参考訳): VLN-MME:言語誘導視覚ナビゲーションエージェントとしてのMLLMの診断
- Authors: Xunyi Zhao, Gengze Zhou, Qi Wu,
- Abstract要約: ゼロショットエージェントとしてMLLMを探索するための統一的評価フレームワークを提案する。
高度にモジュール化されたアクセシブルな設計で評価を単純化する。
我々は,CoT推論と自己言語によるベースラインエージェントの強化が,予期せぬ性能低下につながることを観察した。
- 参考スコア(独自算出の注目度): 12.383467162169703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across a wide range of vision-language tasks. However, their performance as embodied agents, which requires multi-round dialogue spatial reasoning and sequential action prediction, needs further exploration. Our work investigates this potential in the context of Vision-and-Language Navigation (VLN) by introducing a unified and extensible evaluation framework to probe MLLMs as zero-shot agents by bridging traditional navigation datasets into a standardized benchmark, named VLN-MME. We simplify the evaluation with a highly modular and accessible design. This flexibility streamlines experiments, enabling structured comparisons and component-level ablations across diverse MLLM architectures, agent designs, and navigation tasks. Crucially, enabled by our framework, we observe that enhancing our baseline agent with Chain-of-Thought (CoT) reasoning and self-reflection leads to an unexpected performance decrease. This suggests MLLMs exhibit poor context awareness in embodied navigation tasks; although they can follow instructions and structure their output, their 3D spatial reasoning fidelity is low. VLN-MME lays the groundwork for systematic evaluation of general-purpose MLLMs in embodied navigation settings and reveals limitations in their sequential decision-making capabilities. We believe these findings offer crucial guidance for MLLM post-training as embodied agents.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な機能を示す。
しかし,多ラウンド対話型空間推論と逐次行動予測を必要とするエンボディエージェントとしての性能は,さらなる探索が必要である。
本研究は、従来のナビゲーションデータセットを標準ベンチマークであるVLN-MMEにブリッジすることで、MLLMをゼロショットエージェントとして探索するための統一的で拡張可能な評価フレームワークを導入することで、VLN(Vision-and-Language Navigation)の文脈におけるこの可能性について検討する。
高度にモジュール化されたアクセシブルな設計で評価を単純化する。
この柔軟性は実験を合理化し、MLLMアーキテクチャ、エージェント設計、ナビゲーションタスクにまたがる構造的な比較とコンポーネントレベルの改善を可能にする。
重要な点として,我々のフレームワークが有効になれば,CoT(Chain-of-Thought)推論と自己回帰によるベースラインエージェントの強化が,予期せぬ性能低下につながることが分かる。
このことは、MLLMが具体化されたナビゲーションタスクにおいてコンテキスト認識が貧弱であることを示し、指示に従うことができ、出力を構造化することができるが、3次元空間推論の忠実度は低いことを示唆している。
VLN-MMEは、具体化ナビゲーション設定における汎用MLLMの体系的評価の基盤を置き、シーケンシャルな意思決定能力の限界を明らかにする。
これらの知見は, MLLM後トレーニングにおいて, エンボディエージェントとして重要な指針となると信じている。
関連論文リスト
- Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [30.685419129265252]
我々は、VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。
我々は、効果的な行動予測とナビゲーション推論のために、LCMとナビゲーションポリシーネットワークを組み込む方法を利用する。
論文 参考訳(メタデータ) (2024-07-17T07:44:26Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。