論文の概要: Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2602.15724v1
- Date: Tue, 17 Feb 2026 17:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.132622
- Title: Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
- Title(参考訳): 効率的な視覚・言語ナビゲーションのためのナビゲート候補抽出学習
- Authors: Shutian Gu, Chengkai Huang, Ruoyu Wang, Lina Yao,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。
本稿では,基礎となる言語モデルの変更や微調整を行うことなく,VLNを改善するための検索拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.242490558864626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to follow natural-language instructions and navigate through previously unseen environments. Recent approaches increasingly employ large language models (LLMs) as high-level navigators due to their flexibility and reasoning capability. However, prompt-based LLM navigation often suffers from inefficient decision-making, as the model must repeatedly interpret instructions from scratch and reason over noisy and verbose navigable candidates at each step. In this paper, we propose a retrieval-augmented framework to improve the efficiency and stability of LLM-based VLN without modifying or fine-tuning the underlying language model. Our approach introduces retrieval at two complementary levels. At the episode level, an instruction-level embedding retriever selects semantically similar successful navigation trajectories as in-context exemplars, providing task-specific priors for instruction grounding. At the step level, an imitation-learned candidate retriever prunes irrelevant navigable directions before LLM inference, reducing action ambiguity and prompt complexity. Both retrieval modules are lightweight, modular, and trained independently of the LLM. We evaluate our method on the Room-to-Room (R2R) benchmark. Experimental results demonstrate consistent improvements in Success Rate, Oracle Success Rate, and SPL on both seen and unseen environments. Ablation studies further show that instruction-level exemplar retrieval and candidate pruning contribute complementary benefits to global guidance and step-wise decision efficiency. These results indicate that retrieval-augmented decision support is an effective and scalable strategy for enhancing LLM-based vision-and-language navigation.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。
最近のアプローチでは、柔軟性と推論能力のために、大きな言語モデル(LLM)をハイレベルなナビゲータとして採用している。
しかしながら、プロンプトベースのLLMナビゲーションは、しばしば非効率な意思決定に悩まされる。
本稿では,LLMに基づくVLNの効率性と安定性を,基礎となる言語モデルの変更や微調整を伴わずに向上するフレームワークを提案する。
提案手法は2つの相補的なレベルで検索を導入する。
エピソードレベルでは、命令レベルの埋め込みレトリバーは、意味的に類似した成功したナビゲーショントラジェクトリをインコンテキストの例示として選択し、命令グラウンドのタスク固有の先行情報を提供する。
ステップレベルでは、模倣学習された候補レトリバーは、LSM推論の前に無関係なナビゲートを行い、動作の曖昧さを低減し、複雑さを促進させる。
どちらの検索モジュールも軽量でモジュール式であり、LLMとは独立して訓練されている。
提案手法をRoom-to-Room(R2R)ベンチマークで評価した。
実験結果は、目に見えない環境と見えない環境の両方において、成功率、Oracle成功率、SPLが一貫した改善を示している。
アブレーション研究では, 指導レベルの模範的検索と候補決定が, グローバルガイダンスとステップワイズ意思決定効率に相補的利益をもたらすことが示されている。
これらの結果は,LLMに基づく視覚・言語ナビゲーションを向上するための,検索強化意思決定支援が効果的かつスケーラブルな戦略であることを示唆している。
関連論文リスト
- EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [30.685419129265252]
我々は、VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。
我々は、効果的な行動予測とナビゲーション推論のために、LCMとナビゲーションポリシーネットワークを組み込む方法を利用する。
論文 参考訳(メタデータ) (2024-07-17T07:44:26Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。