論文の概要: Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling
- arxiv url: http://arxiv.org/abs/2602.15513v1
- Date: Tue, 17 Feb 2026 11:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.049372
- Title: Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling
- Title(参考訳): 身体的探索におけるMLLMの改善とヒューマンインスピレーションドメモリモデリングによる質問応答
- Authors: Ji Li, Jing Xia, Mingyi Li, Shiyan Hu,
- Abstract要約: 本研究では,エピソードとセマンティックメモリをアンハングする非パラメトリックメモリフレームワークを提案する。
検索優先の推論支援パラダイムは,意味的類似性を通じてエピソード体験を想起し,視覚的推論によって検証する。
- 参考スコア(独自算出の注目度): 7.901667874113712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Multimodal Large Language Models as the brain of embodied agents remains challenging, particularly under long-horizon observations and limited context budgets. Existing memory assisted methods often rely on textual summaries, which discard rich visual and spatial details and remain brittle in non-stationary environments. In this work, we propose a non-parametric memory framework that explicitly disentangles episodic and semantic memory for embodied exploration and question answering. Our retrieval-first, reasoning-assisted paradigm recalls episodic experiences via semantic similarity and verifies them through visual reasoning, enabling robust reuse of past observations without rigid geometric alignment. In parallel, we introduce a program-style rule extraction mechanism that converts experiences into structured, reusable semantic memory, facilitating cross-environment generalization. Extensive experiments demonstrate state-of-the-art performance on embodied question answering and exploration benchmarks, yielding a 7.3% gain in LLM-Match and an 11.4% gain in LLM MatchXSPL on A-EQA, as well as +7.7% success rate and +6.8% SPL on GOAT-Bench. Analyses reveal that our episodic memory primarily improves exploration efficiency, while semantic memory strengthens complex reasoning of embodied agents.
- Abstract(参考訳): エンボディエージェントの脳としてのマルチモーダル大言語モデルの導入は、特に長期観測や限られた文脈予算の下では、依然として困難である。
既存のメモリアシスト手法は、しばしばテキストの要約に頼り、リッチな視覚的・空間的詳細を破棄し、静止しない環境では不安定なままである。
本研究では,エピソードとセマンティックメモリを具体化して問合せ応答を行う非パラメトリックメモリフレームワークを提案する。
検索優先の推論支援パラダイムは,意味的類似性を通じてエピソード体験を想起し,視覚的推論により検証し,立体幾何学的アライメントを伴わずに過去の観測の堅牢な再利用を可能にする。
並行して、体験を構造化された再利用可能なセマンティックメモリに変換するプログラムスタイルのルール抽出機構を導入し、環境横断の一般化を容易にする。
大規模な実験では、具体的質問応答と探索のベンチマークで最先端のパフォーマンスを示し、LLM-Matchでは7.3%、A-EQAでは11.4%、A-EQAでは+7.7%、GOAT-Benchでは+6.8%である。
セマンティックメモリはエンボディエージェントの複雑な推論を強化する一方,我々のエピソードメモリは探索効率を向上する。
関連論文リスト
- Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration [52.35887679314727]
長期記憶身体探索は、エージェントの探索的認知と意思決定行動を統合することを目的としている。
エージェントのメモリリコールとプロアクティブな探索能力を高めるため,我々はMemoryExplorerを提案する。
論文 参考訳(メタデータ) (2026-01-11T16:23:22Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - Learning from Supervision with Semantic and Episodic Memory: A Reflective Approach to Agent Adaptation [11.819481846962447]
本研究では,事前訓練された大規模言語モデル上に構築されたエージェントが,パラメータ更新なしでラベル付き例からターゲット分類関数を学習する方法について検討する。
我々のフレームワークは、エピソードメモリを使用して、インスタンスレベルの批判を保存し、それらを再利用可能なタスクレベルのガイダンスに蒸留する。
我々の研究は、より適応的で解釈可能なLLMエージェントを構築するためのメモリ駆動型反射学習の可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-22T17:58:03Z) - Dream to Recall: Imagination-Guided Experience Retrieval for Memory-Persistent Vision-and-Language Navigation [8.14424628742372]
VLN(Vision-and-Language Navigation)は、エージェントが環境を通じて自然言語の指示に従う必要がある。
既存のメモリ永続化VLNのアプローチには、限界がある。
本稿では,暗黙記憶に基づく検索機構として想像力を利用するMemoirを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:58:01Z) - ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory [21.4675019810992]
概念レベルのメモリは再利用され、ソリューショントレースから抽出されたモジュラー抽象化が自然言語に格納される。
我々は、合成一般化と抽象的推論を強調するベンチマークARC-AGIを評価する。
抽象概念は最も一貫したメモリ設計であり、全てのテストされた推論計算スケールでベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-04T17:54:19Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - Episodic Memories Generation and Evaluation Benchmark for Large Language Models [7.660368798066376]
我々は、人間のような認知に向けてAIを前進させるためには、エピソード記憶能力を大規模言語モデルに統合することが不可欠であると主張している。
本研究では,時間的・空間的文脈をカプセル化し,関連する実体を包含し,詳細な記述を行うための構造的アプローチを開発する。
我々は、汚染のない独自のエピソードメモリベンチマークを合成し、LLM性能を評価するためにオープンソースコードとデータセットをリリースする。
論文 参考訳(メタデータ) (2025-01-21T02:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。