論文の概要: MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs
- arxiv url: http://arxiv.org/abs/2605.08374v2
- Date: Tue, 12 May 2026 12:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.841826
- Title: MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs
- Title(参考訳): MemQ: Q-Learningを自己進化型メモリエージェントに統合する
- Authors: Junwei Liao, Haoting Shi, Ruiwen Zhou, Jiaqian Wang, Shengtao Zhang, Wei Zhang, Weinan Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Bo Tang, Muning Wen,
- Abstract要約: 我々は,新たなメモリが生成されるたびに記憶が取得されたことを記録した証明DAGを通じて,クレジットを後方に伝播するMemQを紹介した。
6つのベンチマークで、MemQは、一般化評価とランタイム学習の6つすべてで最高成功率を達成した。
さらに、$と$がEC-MDP構造とどのように相互作用するかを研究し、パラメータ選択と将来の研究の原則的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 47.66730296440261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Episodic memory allows LLM agents to accumulate and retrieve experience, but current methods treat each memory independently, i.e., evaluating retrieval quality in isolation without accounting for the dependency chains through which memories enable the creation of future memories. We introduce MemQ, which applies TD($λ$) eligibility traces to memory Q-values, propagating credit backward through a provenance DAG that records which memories were retrieved when each new memory was created. Credit weight decays as $(γλ)^d$ with DAG depth $d$, replacing temporal distance with structural proximity. We formalize the setting as an Exogenous-Context MDP, whose factored transition decouples the exogenous task stream from the endogenous memory store. Across six benchmarks, spanning OS interaction, function calling, code generation, multimodal reasoning, embodied reasoning, and expert-level QA, MemQ achieves the highest success rate on all six in generalization evaluation and runtime learning, with gains largest on multi-step tasks that produce deep and relevant provenance chains (up to +5.7~pp) and smallest on single-step classification (+0.77~pp) where single-step updates already suffice. We further study how $γ$ and $λ$ interact with the EC-MDP structure, providing principled guidance for parameter selection and future research. Code is available at https://github.com/jwliao-ai/MemQ.
- Abstract(参考訳): エピソードメモリは、LCMエージェントが経験を蓄積して取得することを可能にするが、現在のメソッドは個々のメモリを独立して扱う。
本稿では,メモリQ値にTD($λ$)の可視性トレースを適用したMemQを紹介する。
クレジットウェイトは、DAG深さ$d$で$(γλ)^d$として崩壊し、時間的距離を構造的近接に置き換える。
本研究では,外因性タスクストリームを内因性メモリストアから切り離した外部因性コンテキスト MDP として設定する。
OSのインタラクション、関数呼び出し、コード生成、マルチモーダル推論、エンボディド推論、エキスパートレベルのQAにまたがる6つのベンチマークで、MemQは、一般化評価と実行時学習の6つすべてで最高成功率を達成している。
さらに、$γ$と$λ$がEC-MDP構造とどのように相互作用し、パラメータ選択と将来の研究の原則的なガイダンスを提供するかを研究する。
コードはhttps://github.com/jwliao-ai/MemQ.comで入手できる。
関連論文リスト
- Memory-Augmented LLM-based Multi-Agent System for Automated Feature Generation on Tabular Data [52.80567461420316]
メモリ拡張LPMに基づくマルチエージェントシステム(textbfMALMAS)を提案する。
MALMASは生成プロセスを独立した責任を持つエージェントに分解し、ルータエージェントはイテレーション毎にエージェントの適切なサブセットを起動する。
さらに、手続きメモリ、フィードバックメモリ、概念記憶を含むメモリモジュールを統合し、その後の特徴生成を適応的に導く反復的改善を可能にする。
論文 参考訳(メタデータ) (2026-04-22T07:09:30Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。