Fugu-MT 論文翻訳(概要): CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

論文の概要: CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

arxiv url: http://arxiv.org/abs/2603.07997v1
Date: Mon, 09 Mar 2026 06:02:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.592736
Title: CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
Title（参考訳）: CMMR-VLN:連続マルチモーダルメモリ検索による視覚・言語ナビゲーション
Authors: Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma,
Abstract要約: ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)には、ナビゲーションタスクを支援するために、関連する事前体験を選択的にリコールし、使用する能力がない。構造化メモリとリフレクション機能を備えたLLMエージェントを実現するVLNフレームワークであるCMMR-VLN(Continual Multimodal Memory Retrieval based VLN)を提案する。
参考スコア（独自算出の注目度）: 8.022522932302998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although large language models (LLMs) are introduced into vision-and-language navigation (VLN) to improve instruction comprehension and generalization, existing LLM- based VLN lacks the ability to selectively recall and use relevant priori experiences to help navigation tasks, limiting their performance in long-horizon and unfamiliar scenarios. In this work, we propose CMMR-VLN (Continual Multimodal Memory Retrieval based VLN), a VLN framework that endows LLM agents with structured memory and reflection capabilities. Specifically, the CMMR-VLN constructs a multimodal experi- ence memory indexed by panoramic visual images and salient landmarks to retrieve relevant experiences during navigation, introduces a retrieved-augmented generation pipeline to mimick how experienced human navigators leverage priori knowledge, and incorporates a reflection-based memory update strategy that selectively stores complete successful paths and the key initial mistake in failure cases. Comprehensive tests illustrate average success rate improvements of 52.9%, 20.9% and 20.9%, and 200%, 50% and 50% over the NavGPT, the MapGPT, and the DiscussNav in simulation and real tests, respectively eluci- dating the great potential of the CMMR-VLN as a backbone VLN framework.
Abstract（参考訳）: 大きな言語モデル(LLM)は、命令の理解と一般化を改善するために視覚言語ナビゲーション(VLN)に導入されているが、既存のLLMベースのVLNでは、ナビゲーションタスクを支援するために、関連する事前体験を選択的にリコールし、使用することができず、長い水平および不慣れなシナリオでパフォーマンスを制限している。本稿では,構造化メモリとリフレクション機能を備えたLLMエージェントを実現するVLNフレームワークであるCMMR-VLN(Continual Multimodal Memory Retrieval based VLN)を提案する。具体的には、CMMR-VLNは、パノラマ画像と有意義なランドマークによってインデックス付けされたマルチモーダルな経験メモリを構築し、ナビゲーション中に関連する経験を検索し、経験豊富な人間のナビゲータが優先知識をどのように活用するかを模倣する検索拡張生成パイプラインを導入し、完全に成功したパスを選択的に保存するリフレクションベースのメモリ更新戦略と、障害ケースにおける重要な初期ミスを組み込む。総合的なテストでは、平均成功率は52.9%、20.9%、20.9%、およびNavGPT、MapGPT、RedisussNavよりも200%、50%、50%向上した。

論文の概要: CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

関連論文リスト