論文の概要: AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
- arxiv url: http://arxiv.org/abs/2606.02461v2
- Date: Tue, 02 Jun 2026 03:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.563443
- Title: AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
- Title(参考訳): AgentCL:言語エージェントにおける連続学習の厳密な評価に向けて
- Authors: Yiheng Shu, Bernal Jiménez Gutiérrez, Saisri Padmaja Jonnalagedda, Yuguang Yao, Huan Sun, Yu Su,
- Abstract要約: 継続的な学習は、エージェントが一連のタスクに再利用可能な経験を蓄積し、時間とともに改善し、無関係な経験からの干渉を避けることを期待する。
ほとんどの取り組みは、長いコンテキストの会話やドキュメントに対する検索と推論に重点を置いているが、最近の長命適応ベンチマークは、しばしば単純なタスクストリームに依存している。
本稿では、制御されたタスクストリームと転送利得のメトリクスに着目した連続学習エージェントのための評価フレームワークAgentCLを提案する。
- 参考スコア(独自算出の注目度): 30.801952443449633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilized in future episodes. Continual learning expects an agent to accumulate reusable experience across a stream of tasks, improve over time, and avoid interference from irrelevant experiences. Unfortunately, existing benchmarks struggle to evaluate continual learning in language agents rigorously. Most efforts focus on retrieval and reasoning over long-context conversations or documents, while recent lifelong-adaptation benchmarks often rely on naive task streams with limited analysis of cross-task relationships, making it difficult to understand what an agent learns and reuses over time. This paper presents an evaluation framework AgentCL for continual learning in agents, centered on controlled task streams and metrics for transfer gains. AgentCL constructs compositional streams where earlier sub-solutions, evidence, or workflows are intentionally reusable in later tasks, and contrasts them with naive streams where such reusability is not guaranteed. We use the benchmark to evaluate non-parametric memory designs for continual learning. To diagnose how memory design choices affect continual learning, we develop MemProbe, a probing method that stores interactions, insights, and skills, while filtering unreliable experiences during consolidation. Empirical analysis across coding, deep research, and language understanding/reasoning tasks shows that naive streams offer limited ability to distinguish memory designs, whereas controlled streams more clearly distinguish their plasticity. Meanwhile, naive and held-out settings often yield limited gains and can expose memory-induced degradation. These results highlight the need for stronger memory designs that balance plasticity and stable reuse.
- Abstract(参考訳): 言語エージェントは個々のタスクの解決に相当な推論時間を費やすが、あるエピソードで得られた経験は将来のエピソードでは利用されないことが多い。
継続的な学習は、エージェントが一連のタスクに再利用可能な経験を蓄積し、時間とともに改善し、無関係な経験からの干渉を避けることを期待する。
残念ながら、既存のベンチマークは言語エージェントの継続的な学習を厳格に評価するのに苦労している。
長いコンテキストの会話やドキュメントに対する検索と推論に重点を置いているのに対して、最近の長命適応ベンチマークでは、タスク間の関係を限定的に分析した単純なタスクストリームに頼っている場合が多いため、エージェントが学習し、再利用することが時間の経過とともに難しくなる。
本稿では,エージェントにおける連続学習のための評価フレームワークであるAgentCLについて述べる。
AgentCLは、初期のサブソリューション、エビデンス、ワークフローが後続のタスクで意図的に再利用されるコンポジションストリームを構築し、そのような再利用性が保証されていない単純なストリームと対比する。
我々はこのベンチマークを用いて、連続学習のための非パラメトリックメモリ設計を評価する。
メモリ設計の選択が連続学習にどう影響するかを診断するために,統合中に信頼できない経験をフィルタリングしながら,インタラクションや洞察,スキルを記憶する探索手法であるMemProbeを開発した。
コーディング、ディープリサーチ、言語理解/推論タスクにまたがる経験的分析は、ナイーブストリームがメモリ設計を区別する能力に制限があることを示しているが、制御されたストリームは、その可塑性をより明確に区別する。
一方、ナイーブとホールドアウトの設定は、しばしば限られたゲインをもたらし、メモリが引き起こす劣化を露呈する。
これらの結果は、可塑性と安定した再利用のバランスをとる強力なメモリ設計の必要性を強調している。
関連論文リスト
- SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。
SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。
現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文 参考訳(メタデータ) (2026-05-22T18:23:31Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory [57.517214479414726]
ReasoningBankは、エージェントの自己判断の成功と失敗の経験から一般化可能な推論戦略を抽出するメモリフレームワークである。
テスト時には、エージェントがReasoningBankから関連する記憶を取得してそのインタラクションを知らせ、新しい学習を統合することで、時間が経つにつれてより有能になる。
本稿では,エージェントのインタラクションエクスペリエンスをスケールアップすることにより,学習プロセスの高速化と多様化を図るメモリ対応テストタイムスケーリング(MaTTS)を提案する。
論文 参考訳(メタデータ) (2025-09-29T17:51:03Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [65.70584076918679]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - Remember and Recall: Associative-Memory-based Trajectory Prediction [25.349986959111757]
我々は,人間の顕著な学習能力に触発された,フラグメンテッドメモリに基づく軌道予測(FMTP)モデルを提案する。
FMTPモデルは、情報冗長性を低減し、計算効率を向上させるために離散表現を用いる。
言語モデルに基づく高度な推論エンジンを開発し、これらの離散表現間の連想規則を深く学習する。
論文 参考訳(メタデータ) (2024-10-03T04:32:21Z) - AdaER: An Adaptive Experience Replay Approach for Continual Lifelong
Learning [16.457330925212606]
持続的生涯学習の課題に対処するために,適応的経験リプレイ(AdaER)を提案する。
AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。
結果: AdaERは、既存の持続的生涯学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2023-08-07T01:25:45Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。