論文の概要: Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2602.15724v1
- Date: Tue, 17 Feb 2026 17:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.132622
- Title: Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
- Title(参考訳): 効率的な視覚・言語ナビゲーションのためのナビゲート候補抽出学習
- Authors: Shutian Gu, Chengkai Huang, Ruoyu Wang, Lina Yao,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。
本稿では,基礎となる言語モデルの変更や微調整を行うことなく,VLNを改善するための検索拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.242490558864626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to follow natural-language instructions and navigate through previously unseen environments. Recent approaches increasingly employ large language models (LLMs) as high-level navigators due to their flexibility and reasoning capability. However, prompt-based LLM navigation often suffers from inefficient decision-making, as the model must repeatedly interpret instructions from scratch and reason over noisy and verbose navigable candidates at each step. In this paper, we propose a retrieval-augmented framework to improve the efficiency and stability of LLM-based VLN without modifying or fine-tuning the underlying language model. Our approach introduces retrieval at two complementary levels. At the episode level, an instruction-level embedding retriever selects semantically similar successful navigation trajectories as in-context exemplars, providing task-specific priors for instruction grounding. At the step level, an imitation-learned candidate retriever prunes irrelevant navigable directions before LLM inference, reducing action ambiguity and prompt complexity. Both retrieval modules are lightweight, modular, and trained independently of the LLM. We evaluate our method on the Room-to-Room (R2R) benchmark. Experimental results demonstrate consistent improvements in Success Rate, Oracle Success Rate, and SPL on both seen and unseen environments. Ablation studies further show that instruction-level exemplar retrieval and candidate pruning contribute complementary benefits to global guidance and step-wise decision efficiency. These results indicate that retrieval-augmented decision support is an effective and scalable strategy for enhancing LLM-based vision-and-language navigation.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。
最近のアプローチでは、柔軟性と推論能力のために、大きな言語モデル(LLM)をハイレベルなナビゲータとして採用している。
しかしながら、プロンプトベースのLLMナビゲーションは、しばしば非効率な意思決定に悩まされる。
本稿では,LLMに基づくVLNの効率性と安定性を,基礎となる言語モデルの変更や微調整を伴わずに向上するフレームワークを提案する。
提案手法は2つの相補的なレベルで検索を導入する。
エピソードレベルでは、命令レベルの埋め込みレトリバーは、意味的に類似した成功したナビゲーショントラジェクトリをインコンテキストの例示として選択し、命令グラウンドのタスク固有の先行情報を提供する。
ステップレベルでは、模倣学習された候補レトリバーは、LSM推論の前に無関係なナビゲートを行い、動作の曖昧さを低減し、複雑さを促進させる。
どちらの検索モジュールも軽量でモジュール式であり、LLMとは独立して訓練されている。
提案手法をRoom-to-Room(R2R)ベンチマークで評価した。
実験結果は、目に見えない環境と見えない環境の両方において、成功率、Oracle成功率、SPLが一貫した改善を示している。
アブレーション研究では, 指導レベルの模範的検索と候補決定が, グローバルガイダンスとステップワイズ意思決定効率に相補的利益をもたらすことが示されている。
これらの結果は,LLMに基づく視覚・言語ナビゲーションを向上するための,検索強化意思決定支援が効果的かつスケーラブルな戦略であることを示唆している。
関連論文リスト
- EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [30.685419129265252]
我々は、VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。
我々は、効果的な行動予測とナビゲーション推論のために、LCMとナビゲーションポリシーネットワークを組み込む方法を利用する。
論文 参考訳(メタデータ) (2024-07-17T07:44:26Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。
まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。
第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T08:36:43Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。