論文の概要: TAME: A Trustworthy Test-Time Evolution of Agent Memory with Systematic Benchmarking
- arxiv url: http://arxiv.org/abs/2602.03224v1
- Date: Tue, 03 Feb 2026 07:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.318789
- Title: TAME: A Trustworthy Test-Time Evolution of Agent Memory with Systematic Benchmarking
- Title(参考訳): TAME: システムベンチマークによるエージェントメモリの信頼性の高いテスト時間進化
- Authors: Yu Cheng, Jiuan Zhou, Yongkang Hu, Yihang Chen, Huichi Zhou, Mingang Chen, Zhizhong Zhang, Kun Shao, Yuan Xie, Zhaoxia Yin,
- Abstract要約: エージェントメモリのテスト時間進化は、AGIを達成するための重要なパラダイムである。
エージェントセーフティアライメントは、エージェントメモリミス進化(Agen Memory Misevolution)と呼ばれる現象に弱いままである。
本稿では,タスク性能を向上させるために,メモリを別途進化させるデュアルメモリ進化フレームワークであるTAMEを提案する。
- 参考スコア(独自算出の注目度): 32.57514611558346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time evolution of agent memory serves as a pivotal paradigm for achieving AGI by bolstering complex reasoning through experience accumulation. However, even during benign task evolution, agent safety alignment remains vulnerable-a phenomenon known as Agent Memory Misevolution. To evaluate this phenomenon, we construct the Trust-Memevo benchmark to assess multi-dimensional trustworthiness during benign task evolution, revealing an overall decline in trustworthiness across various task domains and evaluation settings. To address this issue, we propose TAME, a dual-memory evolutionary framework that separately evolves executor memory to improve task performance by distilling generalizable methodologies, and evaluator memory to refine assessments of both safety and task utility based on historical feedback. Through a closed loop of memory filtering, draft generation, trustworthy refinement, execution, and dual-track memory updating, TAME preserves trustworthiness without sacrificing utility. Experiments demonstrate that TAME mitigates misevolution, achieving a joint improvement in both trustworthiness and task performance.
- Abstract(参考訳): エージェントメモリのテスト時間進化は、経験蓄積を通じて複雑な推論を促進することでAGIを達成するための重要なパラダイムとなる。
しかしながら、良心的なタスクの進化の間でさえ、エージェントの安全性の整合性は依然として脆弱であり、エージェントメモリミス進化(Agen Memory Misevolution)と呼ばれる現象である。
この現象を評価するためにTrust-Memevoベンチマークを構築し、良質なタスク進化における多次元信頼度の評価を行い、様々なタスク領域における信頼性の全体的な低下と評価設定を明らかにした。
この問題に対処するため,本研究では,実行メモリを個別に進化させ,一般化可能な方法論を蒸留することによりタスク性能を向上させるための,デュアルメモリ進化フレームワークであるTAMEと,過去のフィードバックに基づいて安全性とタスクユーティリティの両方を評価するための評価器メモリを提案する。
メモリフィルタリング、ドラフト生成、信頼性の高い洗練、実行、デュアルトラックメモリ更新のクローズドループを通じて、TAMEはユーティリティを犠牲にすることなく信頼性を維持する。
実験により、TAMEはミス進化を軽減し、信頼性とタスクパフォーマンスの両面で共同で改善することを示した。
関連論文リスト
- Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - MemEvolve: Meta-Evolution of Agent Memory Systems [66.09735157017558]
自己進化型メモリシステムは、大型言語モデル(LLM)ベースのエージェントの進化パラダイムを前例のない形で再構築している。
MemeEvolveは、エージェントの経験的知識とメモリアーキテクチャを共同で進化させるメタ進化フレームワークである。
EvolveLabは、12の代表的なメモリシステムをモジュール設計空間に蒸留する、統一された自己進化型メモリである。
論文 参考訳(メタデータ) (2025-12-21T14:26:14Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [65.70584076918679]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。