論文の概要: Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
- arxiv url: http://arxiv.org/abs/2506.19433v1
- Date: Tue, 24 Jun 2025 09:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.561448
- Title: Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
- Title(参考訳): Mem4Nav:階層型空間認識長短記憶システムを用いた都市環境における視覚・言語ナビゲーションの促進
- Authors: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li,
- Abstract要約: 大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を行うための具体的エージェントを必要とする。
階層型空間認識長短メモリシステムである textbfMem4Nav を導入し,任意のVLNバックボーンを拡張できる。
- 参考スコア(独自算出の注目度): 8.629870144131248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) in large-scale urban environments requires embodied agents to ground linguistic instructions in complex scenes and recall relevant experiences over extended time horizons. Prior modular pipelines offer interpretability but lack unified memory, while end-to-end (M)LLM agents excel at fusing vision and language yet remain constrained by fixed context windows and implicit spatial reasoning. We introduce \textbf{Mem4Nav}, a hierarchical spatial-cognition long-short memory system that can augment any VLN backbone. Mem4Nav fuses a sparse octree for fine-grained voxel indexing with a semantic topology graph for high-level landmark connectivity, storing both in trainable memory tokens embedded via a reversible Transformer. Long-term memory (LTM) compresses and retains historical observations at both octree and graph nodes, while short-term memory (STM) caches recent multimodal entries in relative coordinates for real-time obstacle avoidance and local planning. At each step, STM retrieval sharply prunes dynamic context, and, when deeper history is needed, LTM tokens are decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13 pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW improvement. Ablations confirm the indispensability of both the hierarchical map and dual memory modules. Our codes are open-sourced via https://github.com/tsinghua-fib-lab/Mem4Nav.
- Abstract(参考訳): 大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を下敷きにし、長い時間的地平線上で関連する経験を思い出すために、具体的エージェントを必要とする。
以前のモジュールパイプラインでは、解釈性はあるものの、統一メモリが欠如していた。一方、エンドツーエンド(M)LLMエージェントは、視覚と言語を融合させながら、固定されたコンテキストウィンドウと暗黙の空間推論によって制約される。
本稿では,VLNバックボーンを拡張可能な階層型空間認識長短メモリシステムである \textbf{Mem4Nav} を紹介する。
Mem4Navは、細粒度のボクセルインデックスのためのスパースオクツリーを高レベルなランドマーク接続のためのセマンティックトポロジーグラフと融合し、どちらも可逆トランスフォーマーに埋め込まれたトレーニング可能なメモリトークンに格納する。
長期記憶(LTM)は、オクツリーとグラフノードの両方の履歴観測を圧縮し、保持する一方、短期記憶(STM)は、リアルタイム障害物回避と局所計画のための相対座標における最近のマルチモーダルエントリをキャッシュする。
各ステップにおいて、STM検索は動的コンテキストを急激に引き起こし、より深い歴史が必要な場合には、LTMトークンを無意味にデコードして過去の埋め込みを再構築する。
Touchdown と Map2Seq の3つのバックボーン (Modular, State-of-the-art VLN with prompt-based LLM, State-of-the-art VLN with strided-attention MLLM, Mem4Nav yields 7-13 pp gains in Task Completion, enough SPD reduction, and >10 pp nDTW improve) で評価された。
アブレーションは階層写像と二重メモリモジュールの両方が欠如していることを確認する。
私たちのコードはhttps://github.com/tsinghua-fib-lab/Mem4Nav.comで公開されています。
関連論文リスト
- CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。
2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文 参考訳(メタデータ) (2025-06-06T17:59:06Z) - Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons [0.0]
非常に長いコンテキストウインドウを効率的に処理する大規模言語モデル(LLM)のための新しい非注意型アーキテクチャを提案する。
自己注意機構の性質から2次記憶と過負荷に悩まされている従来のTransformer設計とは異なり、当社のモデルはトークンによる注意の注意を完全に回避している。
論文 参考訳(メタデータ) (2025-05-09T00:25:46Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。
SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。
本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-13T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。