論文の概要: Scaling Self-Evolving Agents via Parametric Memory
- arxiv url: http://arxiv.org/abs/2606.04536v1
- Date: Wed, 03 Jun 2026 07:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.603756
- Title: Scaling Self-Evolving Agents via Parametric Memory
- Title(参考訳): パラメトリックメモリによる自己進化型エージェントのスケーリング
- Authors: Tao Ren, Weiyao Luo, Hui Yang, Rongzhi Zhu, Xiang Huang, Yuchuan Wu, Bingxue Chou, Jieping Ye, Jiafeng Liang, Yongbin Li, Yijie Peng,
- Abstract要約: 既存のメモリ拡張LDMエージェントは、過去の経験をプロンプト空間にのみ保存する。
自己進化型パラメトリックメモリフレームワークである textttTMEM を導入する。
textttTMEMは、様々なモデルスケールで要約ベースのベースラインと検索ベースのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 69.96398842169002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $Δ_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $π_{θ_0+Δ_t}$, while extraction actions produce supervision that updates $Δ_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $θ_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.
- Abstract(参考訳): 既存のメモリ拡張LDMエージェントは、ロールアウト中にモデルパラメータを凍結しながら、テキストサマリーや検索されたパスとして、プロンプトスペースにのみ過去の経験を格納する。
このようなエージェントは、彼らが見たものを 'emph{look up} できるが、 'emph{learn from} できない: 彼らのポリシーは経験によって変化せず、コンテキストから削除された情報は永久に失われる。
エージェントは履歴を明示的なメモリに圧縮するだけでなく、高速なLoRA重みに蒸留された監督を吸収し、軽量なオンライン更新を通じて$Δ_t$を吸収し、1エピソードでその将来の振る舞いを真に変化させる、自己進化型パラメトリックメモリフレームワークである。
我々はこれを高速なロールアウトダイナミクスを持つエージェント決定プロセスとして定式化する:アクションは$π_{θ_0+Δ_t}$からサンプリングされ、一方抽出アクションは、その後の決定のために$Δ_t$を更新する監督を生成する。
θ_0$のトレーニングは、タスクアクションだけでなく、オンラインLoRA適応に使用されるデータの品質も改善します。
さらに,オンライン収束を促進するために,SVDに基づくLoRAサブ空間の初期化を提案する。
LoCoMo, LongMemEval-S, multi-objective search, CL-Bench の実験により, \texttt{TMEM} はモデルスケールの異なる要約ベースおよび検索ベースラインより一貫して優れていることが示された。
関連論文リスト
- Mem-$π$: Adaptive Memory through Learning When and What to Generate [65.31077328444077]
本稿では,大規模言語モデル(LLM)エージェントにおける適応メモリのためのフレームワークを提案する。
Mem-$は検索ベースとRL最適化メモリベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-20T17:51:05Z) - A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - AEL: Agent Evolving Learning for Open-Ended Environments [43.56685432981852]
本稿では,この障害に対処する2段階のフレームワークであるemphAgent Evolving Learning (ael)を紹介する。
ael はシャープ比 2.13$pm$0.47 を達成し、5つの自己改善法を上回ります。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを追加するのではなく、経験の使い方を自覚していることを示している。
論文 参考訳(メタデータ) (2026-04-23T14:29:25Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Quantifying Memory Use in Reinforcement Learning with Temporal Range [51.98491034847041]
時間的範囲(Temporal Range)は、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を扱うモデルに依存しない計量である。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
論文 参考訳(メタデータ) (2025-12-05T22:58:09Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。