論文の概要: Dream to Recall: Imagination-Guided Experience Retrieval for Memory-Persistent Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2510.08553v1
- Date: Thu, 09 Oct 2025 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.299322
- Title: Dream to Recall: Imagination-Guided Experience Retrieval for Memory-Persistent Vision-and-Language Navigation
- Title(参考訳): Imagination-Guided Experience Retrieval for Memory-Persistent Vision-and-Language Navigation
- Authors: Yunzhe Xu, Yiyuan Pan, Zhe Liu,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが環境を通じて自然言語の指示に従う必要がある。
既存のメモリ永続化VLNのアプローチには、限界がある。
本稿では,暗黙記憶に基づく検索機構として想像力を利用するMemoirを提案する。
- 参考スコア(独自算出の注目度): 8.14424628742372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to follow natural language instructions through environments, with memory-persistent variants demanding progressive improvement through accumulated experience. Existing approaches for memory-persistent VLN face critical limitations: they lack effective memory access mechanisms, instead relying on entire memory incorporation or fixed-horizon lookup, and predominantly store only environmental observations while neglecting navigation behavioral patterns that encode valuable decision-making strategies. We present Memoir, which employs imagination as a retrieval mechanism grounded by explicit memory: a world model imagines future navigation states as queries to selectively retrieve relevant environmental observations and behavioral histories. The approach comprises: 1) a language-conditioned world model that imagines future states serving dual purposes: encoding experiences for storage and generating retrieval queries; 2) Hybrid Viewpoint-Level Memory that anchors both observations and behavioral patterns to viewpoints, enabling hybrid retrieval; and 3) an experience-augmented navigation model that integrates retrieved knowledge through specialized encoders. Extensive evaluation across diverse memory-persistent VLN benchmarks with 10 distinctive testing scenarios demonstrates Memoir's effectiveness: significant improvements across all scenarios, with 5.4% SPL gains on IR2R over the best memory-persistent baseline, accompanied by 8.3x training speedup and 74% inference memory reduction. The results validate that predictive retrieval of both environmental and behavioral memories enables more effective navigation, with analysis indicating substantial headroom (73.3% vs 93.4% upper bound) for this imagination-guided paradigm. Code at https://github.com/xyz9911/Memoir.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが環境を通じて自然言語の指示に従う必要がある。
メモリアクセスメカニズムが欠如しており、メモリ全体の取り込みや固定水平ルックアップに頼る代わりに、重要な意思決定戦略をコードするナビゲーション行動パターンを無視しながら、主に環境観測のみを格納している。
本稿では,世界モデルを用いて,環境観測と行動履歴を選択的に検索するクエリとして,将来のナビゲーション状態を想像する。
アプローチは以下の通りである。
1) 将来の状態が二重目的を果たすことを想定する言語条件付き世界モデル: 記憶と検索クエリ生成の経験を符号化すること。
2)観察と行動パターンの両方を視点に固定し、ハイブリッド検索を可能にするハイブリッド視点レベルメモリ
3) 特殊なエンコーダによる検索知識を統合する経験向上ナビゲーションモデル。
10の異なるテストシナリオを持つ多種多様なメモリパーシステントVLNベンチマークに対する広範囲な評価は、Memoirの有効性を示している: すべてのシナリオで大幅な改善が実施され、IR2Rでは8.3倍のトレーニングスピードアップと74%の推論メモリリダクションを伴い、最高のメモリパーシステントベースラインよりも5.4%のSPLが向上した。
その結果、環境記憶と行動記憶の両方の予測的検索により、より効果的なナビゲーションが可能であることが確認された。
コードネームはhttps://github.com/xyz9911/Memoir。
関連論文リスト
- MemGen: Weaving Generative Latent Memory for Self-Evolving Agents [57.1835920227202]
本稿では,エージェントに人間的な認知機能を持たせる動的生成記憶フレームワークであるMemGenを提案する。
MemGenは、エージェントが推論を通して潜在記憶をリコールし、増大させ、記憶と認知の密接なサイクルを生み出すことを可能にする。
論文 参考訳(メタデータ) (2025-09-29T12:33:13Z) - EXPEREPAIR: Dual-Memory Enhanced LLM-based Repository-Level Program Repair [13.512456346600477]
ソフトウェア問題を自動的に修復する新しい手法であるExpeRepairを提案する。
2チャンネルの知識蓄積を通じて、歴史的な修復経験から学習する。
Claude 3.7 Sonnetのパス@1スコアは49.3%で、最先端のオープンソースメソッドよりも優れている。
論文 参考訳(メタデータ) (2025-06-12T08:39:27Z) - Memory-enhanced Retrieval Augmentation for Long Video Understanding [91.7163732531159]
本稿では,メモリ強化型RAGベースの新しいアプローチであるMemVidを紹介する。
提案手法は,1) 全体的映像情報の記憶,2) メモリに基づくタスクの情報要求の推論,3) 情報要求に基づくクリティカルモーメントの検索,4) 最終回答を生成するための検索モーメントの抽出という4つの基本的なステップで機能する。
MemVid は LVLM 法と RAG 法に比較して, 効率と有効性を示す。
論文 参考訳(メタデータ) (2025-03-12T08:23:32Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation [15.64077949677469]
メモリ拡張対話システム(MADS)の有効性を評価するための新しいメモリ拡張対話ベンチマーク(MADail-Bench)を提案する。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
論文 参考訳(メタデータ) (2024-09-23T17:38:41Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。