論文の概要: EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle
- arxiv url: http://arxiv.org/abs/2510.16079v1
- Date: Fri, 17 Oct 2025 12:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.836111
- Title: EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle
- Title(参考訳): EvolveR: エクスペリエンス駆動ライフサイクルによる自己進化型LLMエージェント
- Authors: Rong Wu, Xiaoman Wang, Jianbiao Mei, Pinlong Cai, Daocheng Fu, Cheng Yang, Licheng Wen, Xuemeng Yang, Yufan Shen, Yuxin Wang, Botian Shi,
- Abstract要約: 現在のLLM(Large Language Model)エージェントは、ツール使用時のパフォーマンスは高いが、自身の経験から体系的に学習する能力は欠如している。
EvolveRは、エージェントが完全なクローズドループ体験ライフサイクルを通じて自己改善できるように設計されたフレームワークである。
複雑なマルチホップ質問応答ベンチマークにおけるEvolveRの有効性を示す。
- 参考スコア(独自算出の注目度): 26.048906477714937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Model (LLM) agents show strong performance in tool use, but lack the crucial capability to systematically learn from their own experiences. While existing frameworks mainly focus on mitigating external knowledge gaps, they fail to address a more fundamental limitation: the inability to iteratively refine problem-solving strategies. In this work, we introduce EvolveR, a framework designed to enable agent to self-improve through a complete, closed-loop experience lifecycle. This lifecycle comprises two key stages: (1) Offline Self-Distillation, where the agent's interaction trajectories are synthesized into a structured repository of abstract, reusable strategic principles; (2) Online Interaction, where the agent interacts with tasks and actively retrieves distilled principles to guide its decision-making, accumulating a diverse set of behavioral trajectories. This loop employs a policy reinforcement mechanism to iteratively update the agent based on its performance. We demonstrate the effectiveness of EvolveR on complex multi-hop question-answering benchmarks, where it achieves superior performance over strong agentic baselines. Our work presents a comprehensive blueprint for agents that learn not only from external data but also from the consequences of their own actions, paving the way for more autonomous and continuously improving systems. Code is available at https://github.com/Edaizi/EvolveR.
- Abstract(参考訳): 現在のLLM(Large Language Model)エージェントは、ツール使用時のパフォーマンスは高いが、自身の経験から体系的に学習する重要な能力は欠如している。
既存のフレームワークは、主に外部の知識ギャップを軽減することに重点を置いているが、より根本的な制限 – 反復的に問題解決戦略を洗練できないこと – には対処できない。
本研究では,完全クローズドループ体験ライフサイクルを通じてエージェントの自己改善を可能にするフレームワークであるEvolveRを紹介する。
このライフサイクルは,(1) エージェントの相互作用軌跡を抽象的かつ再利用可能な戦略原則の構造化されたリポジトリに合成するオフライン自己蒸留,(2) エージェントがタスクと相互作用し,その意思決定を導くために蒸留原則を積極的に回収し,多様な行動軌跡を蓄積するオンラインインタラクション,の2つの重要な段階から構成される。
このループは、ポリシー強化機構を使用して、そのパフォーマンスに基づいてエージェントを反復的に更新する。
複雑なマルチホップ質問応答ベンチマークにおけるEvolveRの有効性を示す。
我々の研究は、外部データからだけでなく、自身の行動の結果から学習するエージェントに対して包括的な青写真を提供し、より自律的で継続的なシステム改善の道を開く。
コードはhttps://github.com/Edaizi/EvolveR.comで入手できる。
関連論文リスト
- OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks [10.622439192272527]
従来のエージェントシステムは、タスク分布が継続的にドリフトし、外部の監視が不十分な、オープンな環境に苦しむ。
In-Situ Self-Evolving(In-Situ Self-Evolving)パラダイムを提案する。
このフレームワーク内では、新しい課題をナビゲートするためのツールを反復的に合成、最適化、再利用するシステムであるYunjue Agentを開発します。
論文 参考訳(メタデータ) (2026-01-26T07:27:47Z) - Towards AGI A Pragmatic Approach Towards Self Evolving Agent [0.0]
大規模言語モデル(LLM)ベースのエージェントは、デプロイ後、強力だが基本的に静的である。
本研究では,Base LLM,運用SLMエージェント,Code-Generation LLM,Teacher-LLMを統合した階層的自己進化型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-15T20:43:44Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.31926740841128]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。