論文の概要: HiMemVLN: Enhancing Reliability of Open-Source Zero-Shot Vision-and-Language Navigation with Hierarchical Memory System
- arxiv url: http://arxiv.org/abs/2603.14807v1
- Date: Mon, 16 Mar 2026 04:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.048162
- Title: HiMemVLN: Enhancing Reliability of Open-Source Zero-Shot Vision-and-Language Navigation with Hierarchical Memory System
- Title(参考訳): HiMemVLN:階層型メモリシステムによるオープンソースのゼロショットビジョン・ランゲージナビゲーションの信頼性向上
- Authors: Kailin Lyu, Kangyi Wu, Pengna Li, Xiuyu Hu, Qingyi Si, Cui Miao, Ning Yang, Zihang Wang, Long Xiao, Lianyu Hu, Jingyuan Sun, Ce Hao,
- Abstract要約: 階層型メモリシステムをマルチモーダルな大モデルに組み込んだHiMeVLNを提案する。
HiMeVLNは,実環境とシミュレーション環境の両方で実験を行い,オープンソース手法の約2倍の性能を発揮することを示した。
- 参考スコア(独自算出の注目度): 12.907741491900731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents have demonstrated impressive zero-shot performance in vision-language navigation (VLN) tasks. However, most zero-shot methods primarily rely on closed-source LLMs as navigators, which face challenges related to high token costs and potential data leakage risks. Recent efforts have attempted to address this by using open-source LLMs combined with a spatiotemporal CoT framework, but they still fall far short compared to closed-source models. In this work, we identify a critical issue, Navigation Amnesia, through a detailed analysis of the navigation process. This issue leads to navigation failures and amplifies the gap between open-source and closed-source methods. To address this, we propose HiMemVLN, which incorporates a Hierarchical Memory System into a multimodal large model to enhance visual perception recall and long-term localization, mitigating the amnesia issue and improving the agent's navigation performance. Extensive experiments in both simulated and real-world environments demonstrate that HiMemVLN achieves nearly twice the performance of the open-source state-of-the-art method. The code is available at https://github.com/lvkailin0118/HiMemVLN.
- Abstract(参考訳): LLMベースのエージェントは視覚言語ナビゲーション(VLN)タスクにおいて印象的なゼロショット性能を示した。
しかしながら、ほとんどのゼロショット法は、高いトークンコストと潜在的なデータ漏洩リスクに関連する課題に直面しているナビゲータとして、クローズドソースのLCMに依存している。
近年の取り組みでは、オープンソースLLMと時空間CoTフレームワークを組み合わせることでこの問題に対処している。
本研究では,ナビゲーションプロセスの詳細な解析を通じて,重要な問題であるナビゲーション・アムネシアを同定する。
この問題はナビゲーションの障害を引き起こし、オープンソースとクローズドソースメソッドのギャップを拡大する。
これを解決するために,階層型メモリシステムをマルチモーダルな大モデルに組み込んだHiMemVLNを提案する。
HiMemVLNは、シミュレーションと実環境の両方で大規模な実験を行い、オープンソースの最先端手法の約2倍の性能を発揮することを示した。
コードはhttps://github.com/lvkailin0118/HiMemVLNで公開されている。
関連論文リスト
- CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval [8.022522932302998]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)には、ナビゲーションタスクを支援するために、関連する事前体験を選択的にリコールし、使用する能力がない。
構造化メモリとリフレクション機能を備えたLLMエージェントを実現するVLNフレームワークであるCMMR-VLN(Continual Multimodal Memory Retrieval based VLN)を提案する。
論文 参考訳(メタデータ) (2026-03-09T06:02:50Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference [82.557441484339]
視覚大言語モデル(VLLM)の知識境界を検出する手法を提案する。
様々な種類の視覚質問応答データセットに対する実験結果から,本手法がVLLMの知識境界をうまく表現できることが判明した。
論文 参考訳(メタデータ) (2025-02-25T09:32:08Z) - Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs [41.90732562248243]
VLN(Vision-and-Language Navigation)タスクは、エージェントが3D環境をナビゲートするためのテキスト命令に従う必要がある。
近年の手法では,VLNタスクをゼロショットで解くために,LLM(Crowd-source large language model)を用いている。
我々は、連続環境におけるゼロショットVLNのためのオープンソースのLLMを探求する新しい研究であるOpen-Navを紹介する。
論文 参考訳(メタデータ) (2024-09-27T14:47:18Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。