論文の概要: Rethinking Continual Experience Internalization for Self-Evolving LLM Agents
- arxiv url: http://arxiv.org/abs/2606.04703v1
- Date: Wed, 03 Jun 2026 10:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.684291
- Title: Rethinking Continual Experience Internalization for Self-Evolving LLM Agents
- Title(参考訳): 自己進化型LDM剤の連続的内部化再考
- Authors: Jingwen Chen, Wenkai Yang, Shengda Fan, Wenbo Nie, Chenxing Sun, Shaodong Zheng, Yangen Hu, Lu Pan, Ke Zeng, Yankai Lin,
- Abstract要約: 原則レベルのエクスペリエンスは、インスタンスレベルのエクスペリエンスよりも耐久性が高いことが分かりました。
ステップワイドインジェクションは、中間的決定状態と経験を整合させることで、グローバルインジェクションを著しく上回る。
高品質な教師軌道上のオフ・ポリティカル・コンテクスト蒸留は、オン・ポリティカル・コンテクスト蒸留よりもかなり安定した訓練信号を提供する。
- 参考スコア(独自算出の注目度): 36.80404778289742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience internalization converts contextual experience from past interactions into reusable parametric capability, offering a promising path toward continual learning in large language models (LLMs). While prior work has predominantly focused on single-iteration transfer, we discover that under multi-iteration experience learning, existing methods suffer from a progressive capability collapse rather than compounding improvement. We systematically examine this failure through three vital dimensions of experience internalization: (1) Experience Granularity: We find that principle-level experience is more durable than instance-level experience, as it effectively abstracts transferable strategies away from trajectory-specific details. (2) Experience Injection Pattern: Our analysis reveals that step-wise injection significantly outperforms global injection by aligning experience with intermediate decision states, a property that is critical for long-horizon tool use. (3) Internalization Regime: We demonstrate that off-policy context-distillation on high-quality teacher trajectories provides a substantially more stable training signal than on-policy context-distillation, which is inherently limited by local corrections on student-induced flawed states. Together, these insights yield a simple yet robust recipe for stable and sustainable experience internalization, providing concrete guidance for engineering self-evolving and continually learning LLMs.
- Abstract(参考訳): 経験的内在化は、過去のインタラクションから再利用可能なパラメトリック能力へとコンテキスト体験を変換し、大規模言語モデル(LLM)における継続的な学習への有望な道を提供する。
先行研究はシングルイテレーション移行に重点を置いてきたが、マルチイテレーション経験学習では、既存の手法は改善を複雑にするのではなく、進歩的な能力崩壊に悩まされていることが判明した。
1) 経験 粒度: 原則レベルのエクスペリエンスは、トランジェクトリ固有の詳細から効果的に移行可能な戦略を抽象化するので、インスタンスレベルのエクスペリエンスよりも耐久性が高いことが分かりました。
2) 経験的注入パターン: この分析により, 長期ツールの使用に欠かせない特性である中間的決定状態と経験を整合させることにより, 段階的注入がグローバルインジェクションを著しく上回っていることが明らかとなった。
内化規則: 質の高い教員軌道上の非政治的文脈蒸留は、本来、学生が引き起こした欠陥状態の局所的補正によって制限される、非政治的文脈蒸留よりも、かなり安定した訓練信号を提供することを示した。
これらの洞察を合わせて、安定的で持続可能な内部化を実現するためのシンプルで堅牢なレシピが得られ、エンジニアリングの自己進化と継続的な学習のための具体的なガイダンスを提供する。
関連論文リスト
- Rethinking Experience Utilization in Self-Evolving Language Model Agents [51.10420305280499]
自己進化剤は過去の相互作用から経験を蓄積し再利用することで改善する。
本稿では,自己進化型エージェントの重要設計次元としての利用経験について考察する。
論文 参考訳(メタデータ) (2026-05-08T02:48:49Z) - SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training [2.291770711277359]
本研究では,SLEA-RL(Step-Level Experience-Augmented Reinforcement Learning)を提案する。
SLEA-RLは、(i)効率的なクラスタインデックス検索のために構造的に等価な環境状態をグループ化するステップレベルの監視クラスタリング、(ii)スコアベースの入出力とレート制限抽出を通じて成功戦略と失敗パターンを蒸留する自己進化体験ライブラリ、(iii)マルチターンエピソード間のきめ細かな優位性推定のためのステップレベルの信用割当によるポリシー最適化の3つのコンポーネントを通して機能する。
論文 参考訳(メタデータ) (2026-03-18T07:16:18Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Large Language Model Agents Are Not Always Faithful Self-Evolvers [84.08646612111092]
自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することによって継続的に改善される。
本稿では,経験の忠実さ,エージェントの判断が与えられた経験に因果的依存を初めて体系的に調査する。
論文 参考訳(メタデータ) (2026-01-30T01:05:15Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。