論文の概要: CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
- arxiv url: http://arxiv.org/abs/2603.07997v1
- Date: Mon, 09 Mar 2026 06:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.592736
- Title: CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
- Title(参考訳): CMMR-VLN:連続マルチモーダルメモリ検索による視覚・言語ナビゲーション
- Authors: Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma,
- Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)には、ナビゲーションタスクを支援するために、関連する事前体験を選択的にリコールし、使用する能力がない。
構造化メモリとリフレクション機能を備えたLLMエージェントを実現するVLNフレームワークであるCMMR-VLN(Continual Multimodal Memory Retrieval based VLN)を提案する。
- 参考スコア(独自算出の注目度): 8.022522932302998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) are introduced into vision-and-language navigation (VLN) to improve instruction comprehension and generalization, existing LLM- based VLN lacks the ability to selectively recall and use relevant priori experiences to help navigation tasks, limiting their performance in long-horizon and unfamiliar scenarios. In this work, we propose CMMR-VLN (Continual Multimodal Memory Retrieval based VLN), a VLN framework that endows LLM agents with structured memory and reflection capabilities. Specifically, the CMMR-VLN constructs a multimodal experi- ence memory indexed by panoramic visual images and salient landmarks to retrieve relevant experiences during navigation, introduces a retrieved-augmented generation pipeline to mimick how experienced human navigators leverage priori knowledge, and incorporates a reflection-based memory update strategy that selectively stores complete successful paths and the key initial mistake in failure cases. Comprehensive tests illustrate average success rate improvements of 52.9%, 20.9% and 20.9%, and 200%, 50% and 50% over the NavGPT, the MapGPT, and the DiscussNav in simulation and real tests, respectively eluci- dating the great potential of the CMMR-VLN as a backbone VLN framework.
- Abstract(参考訳): 大きな言語モデル(LLM)は、命令の理解と一般化を改善するために視覚言語ナビゲーション(VLN)に導入されているが、既存のLLMベースのVLNでは、ナビゲーションタスクを支援するために、関連する事前体験を選択的にリコールし、使用することができず、長い水平および不慣れなシナリオでパフォーマンスを制限している。
本稿では,構造化メモリとリフレクション機能を備えたLLMエージェントを実現するVLNフレームワークであるCMMR-VLN(Continual Multimodal Memory Retrieval based VLN)を提案する。
具体的には、CMMR-VLNは、パノラマ画像と有意義なランドマークによってインデックス付けされたマルチモーダルな経験メモリを構築し、ナビゲーション中に関連する経験を検索し、経験豊富な人間のナビゲータが優先知識をどのように活用するかを模倣する検索拡張生成パイプラインを導入し、完全に成功したパスを選択的に保存するリフレクションベースのメモリ更新戦略と、障害ケースにおける重要な初期ミスを組み込む。
総合的なテストでは、平均成功率は52.9%、20.9%、20.9%、およびNavGPT、MapGPT、RedisussNavよりも200%、50%、50%向上した。
関連論文リスト
- VLM-Guided Experience Replay [41.08659748023147]
本稿では、視覚言語モデル(VLM)を用いて、リプレイバッファにおける体験の優先順位付けを導くことを提案する。
私たちのキーとなるアイデアは、凍結した訓練済みのVLMを自動評価器として使用して、エージェントの経験から有望なサブトラジェクトリを特定し、優先順位付けすることです。
ゲームプレイやロボティクスを含む全シナリオにおいて,提案手法を用いて訓練したエージェントは,平均成功率11~52%,サンプル効率19~45%向上した。
論文 参考訳(メタデータ) (2026-02-02T10:19:59Z) - SE-VLN: A Self-Evolving Vision-Language Navigation Framework Based on Multimodal Large Language Models [8.48034992736753]
SE-VLNは視覚言語ナビゲーションのための自己進化型フレームワークである
3つのコアモジュール、すなわち階層型メモリモジュール、検索強化思考ベースの推論モジュール、リフレクションモジュールで構成されている。
R2RとREVERSEのデータセットの現在の手法よりも23.9%と15.0%の絶対的なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-07-17T14:13:50Z) - Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [94.74003109176581]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。