論文の概要: EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle
- arxiv url: http://arxiv.org/abs/2510.16079v1
- Date: Fri, 17 Oct 2025 12:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.836111
- Title: EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle
- Title(参考訳): EvolveR: エクスペリエンス駆動ライフサイクルによる自己進化型LLMエージェント
- Authors: Rong Wu, Xiaoman Wang, Jianbiao Mei, Pinlong Cai, Daocheng Fu, Cheng Yang, Licheng Wen, Xuemeng Yang, Yufan Shen, Yuxin Wang, Botian Shi,
- Abstract要約: 現在のLLM(Large Language Model)エージェントは、ツール使用時のパフォーマンスは高いが、自身の経験から体系的に学習する能力は欠如している。
EvolveRは、エージェントが完全なクローズドループ体験ライフサイクルを通じて自己改善できるように設計されたフレームワークである。
複雑なマルチホップ質問応答ベンチマークにおけるEvolveRの有効性を示す。
- 参考スコア(独自算出の注目度): 26.048906477714937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Model (LLM) agents show strong performance in tool use, but lack the crucial capability to systematically learn from their own experiences. While existing frameworks mainly focus on mitigating external knowledge gaps, they fail to address a more fundamental limitation: the inability to iteratively refine problem-solving strategies. In this work, we introduce EvolveR, a framework designed to enable agent to self-improve through a complete, closed-loop experience lifecycle. This lifecycle comprises two key stages: (1) Offline Self-Distillation, where the agent's interaction trajectories are synthesized into a structured repository of abstract, reusable strategic principles; (2) Online Interaction, where the agent interacts with tasks and actively retrieves distilled principles to guide its decision-making, accumulating a diverse set of behavioral trajectories. This loop employs a policy reinforcement mechanism to iteratively update the agent based on its performance. We demonstrate the effectiveness of EvolveR on complex multi-hop question-answering benchmarks, where it achieves superior performance over strong agentic baselines. Our work presents a comprehensive blueprint for agents that learn not only from external data but also from the consequences of their own actions, paving the way for more autonomous and continuously improving systems. Code is available at https://github.com/Edaizi/EvolveR.
- Abstract(参考訳): 現在のLLM(Large Language Model)エージェントは、ツール使用時のパフォーマンスは高いが、自身の経験から体系的に学習する重要な能力は欠如している。
既存のフレームワークは、主に外部の知識ギャップを軽減することに重点を置いているが、より根本的な制限 – 反復的に問題解決戦略を洗練できないこと – には対処できない。
本研究では,完全クローズドループ体験ライフサイクルを通じてエージェントの自己改善を可能にするフレームワークであるEvolveRを紹介する。
このライフサイクルは,(1) エージェントの相互作用軌跡を抽象的かつ再利用可能な戦略原則の構造化されたリポジトリに合成するオフライン自己蒸留,(2) エージェントがタスクと相互作用し,その意思決定を導くために蒸留原則を積極的に回収し,多様な行動軌跡を蓄積するオンラインインタラクション,の2つの重要な段階から構成される。
このループは、ポリシー強化機構を使用して、そのパフォーマンスに基づいてエージェントを反復的に更新する。
複雑なマルチホップ質問応答ベンチマークにおけるEvolveRの有効性を示す。
我々の研究は、外部データからだけでなく、自身の行動の結果から学習するエージェントに対して包括的な青写真を提供し、より自律的で継続的なシステム改善の道を開く。
コードはhttps://github.com/Edaizi/EvolveR.comで入手できる。
関連論文リスト
- Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.31926740841128]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。