論文の概要: MSNav: Zero-Shot Vision-and-Language Navigation with Dynamic Memory and LLM Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2508.16654v1
- Date: Wed, 20 Aug 2025 05:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.088224
- Title: MSNav: Zero-Shot Vision-and-Language Navigation with Dynamic Memory and LLM Spatial Reasoning
- Title(参考訳): MSNav: 動的メモリとLLM空間推論を備えたゼロショットビジョン・ランゲージナビゲーション
- Authors: Chenghao Liu, Zhimu Zhou, Jiachen Zhang, Minghao Zhang, Songfang Huang, Huiling Duan,
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語の命令を解釈し、複雑な環境をナビゲートするエージェントである。
現在のアプローチでは、単一の大規模言語モデル(LLM)がエンドツーエンドで決定する、"ブラックボックス"パラダイムを採用することが多い。
3つのモジュールを相乗的アーキテクチャに融合するフレームワークであるメモリ空間ナビゲーション(MSNav)を提案する。
- 参考スコア(独自算出の注目度): 34.08837799906451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to interpret natural language instructions and navigate complex environments. Current approaches often adopt a "black-box" paradigm, where a single Large Language Model (LLM) makes end-to-end decisions. However, it is plagued by critical vulnerabilities, including poor spatial reasoning, weak cross-modal grounding, and memory overload in long-horizon tasks. To systematically address these issues, we propose Memory Spatial Navigation(MSNav), a framework that fuses three modules into a synergistic architecture, which transforms fragile inference into a robust, integrated intelligence. MSNav integrates three modules: Memory Module, a dynamic map memory module that tackles memory overload through selective node pruning, enhancing long-range exploration; Spatial Module, a module for spatial reasoning and object relationship inference that improves endpoint recognition; and Decision Module, a module using LLM-based path planning to execute robust actions. Powering Spatial Module, we also introduce an Instruction-Object-Space (I-O-S) dataset and fine-tune the Qwen3-4B model into Qwen-Spatial (Qwen-Sp), which outperforms leading commercial LLMs in object list extraction, achieving higher F1 and NDCG scores on the I-O-S test set. Extensive experiments on the Room-to-Room (R2R) and REVERIE datasets demonstrate MSNav's state-of-the-art performance with significant improvements in Success Rate (SR) and Success weighted by Path Length (SPL).
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語の命令を解釈し、複雑な環境をナビゲートするエージェントである。
現在のアプローチでは、単一の大規模言語モデル(LLM)がエンドツーエンドで決定する、"ブラックボックス"パラダイムを採用することが多い。
しかし、空間的推論の貧弱、クロスモーダルグラウンドの弱さ、長期的タスクにおけるメモリ過負荷など、重大な脆弱性に悩まされている。
これらの問題を体系的に解決するために,3つのモジュールを相乗的アーキテクチャに融合するフレームワークであるメモリ空間ナビゲーション(MSNav)を提案し,脆弱な推論を堅牢で統合されたインテリジェンスに変換する。
MSNavは3つのモジュールを統合している: メモリモジュール、選択ノードプルーニングによるメモリ過負荷に対処する動的マップメモリモジュール、長距離探索の強化、空間推論およびエンドポイント認識を改善するオブジェクト関係推論のためのモジュールであるSpatial Module、LCMベースのパスプランニングを使った堅牢なアクションの実行のためのモジュールであるDecision Module。
また,I-O-Sデータセットを導入し,Qwen3-4BモデルをQwen-Spatial(Qwen-Sp)に微調整する。
Room-to-Room (R2R) とREVERIEデータセットの大規模な実験は、MSNavの最先端性能を実証している。
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Memory-Centric Embodied Question Answer [39.3863762723862]
EQA(Embodied Question Answering)は、エージェントが文脈に依存した質問に答えるために、環境を自律的に探索し理解することを要求する。
メモリ中心のEQAフレームワークであるMemoryEQAを提案する。
メモリモジュールが他のモジュールと完全に相互作用できないプランナー中心のEQAモデルとは異なり、MemoryEQAはメモリ情報を全てのモジュールにフレキシブルに供給する。
論文 参考訳(メタデータ) (2025-05-20T05:27:57Z) - LM2: Large Memory Models [11.320069795732058]
本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。
BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
論文 参考訳(メタデータ) (2025-02-09T22:11:42Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。