論文の概要: Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents
- arxiv url: http://arxiv.org/abs/2605.10663v1
- Date: Mon, 11 May 2026 14:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.574751
- Title: Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents
- Title(参考訳): Evolving-RL: エージェント内での経験駆動型自己進化能力のエンドツーエンド最適化
- Authors: Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong, Yao Hu, Jiawei Li,
- Abstract要約: 自己進化エージェントは、過去の相互作用から再利用可能な経験を蒸留することで、大きな言語モデルの静的な性質を克服することを目的としている。
本稿では、自己進化に必要な経験抽出と利用能力を共同で改善する効率的なアルゴリズムフレームワークであるEvolving-RLを提案する。
ALFWorldとMind2Webの実験によると、Evolving-RLはLLMが経験を抽出し再利用する能力を効果的に強化する。
- 参考スコア(独自算出の注目度): 31.6974589324286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience-driven self-evolving agents aim to overcome the static nature of large language models by distilling reusable experience from past interactions, thus enabling adaptation to novel tasks at deployment time. This process places substantial demands on the foundation model's capacities for abstraction, generalization, and in-context learning. However, most existing studies focus primarily on system-level design choices, such as how experience is represented and managed, neglecting the inherent capabilities of the underlying model. While some recent works have started to optimize the experience utilization stage via reinforcement learning, they still fail to treat self-evolution as a unified process to be jointly optimized. To this end, we propose Evolving-RL, an efficient algorithmic framework that jointly improves the experience extraction and utilization capabilities required for self-evolution. Specifically, we center the learning process on experience extraction and evaluation, using the two supervisory signals derived from evaluation to optimize the extractor and solver separately and thus enable their coordinated co-evolution. Experiments on ALFWorld and Mind2Web show that Evolving-RL effectively enhances LLMs' ability to extract and reuse experience, leading to strong performance gains on out-of-distribution tasks (up to 98.7% relative improvement over the GRPO baseline on ALFWorld unseen tasks and 35.8% on Mind2Web), and these gains are fully unlocked only through the coordinated co-evolution of experience extraction and utilization. Furthermore, Evolving-RL inherently functions as an experience-augmented RL algorithm. By internalizing reusable experience patterns directly into model parameters, it achieves remarkable performance gains over standard baselines on both seen and unseen tasks, even in the absence of test-time experience accumulation.
- Abstract(参考訳): 経験駆動型自己進化エージェントは,過去のインタラクションから再利用可能なエクスペリエンスを蒸留することにより,大規模言語モデルの静的性を克服し,デプロイ時に新たなタスクへの適応を可能にする。
このプロセスは、抽象、一般化、文脈内学習のための基礎モデルの能力にかなりの要求を与える。
しかしながら、既存のほとんどの研究は、主にシステムレベルの設計選択に焦点を当てており、例えば、経験がどのように表現され、管理され、基礎となるモデルの本質的な能力を無視している。
いくつかの最近の研究は、強化学習を通じて体験利用の段階を最適化し始めているが、共同で最適化される統一プロセスとして自己進化を扱えない。
そこで本稿では,自己進化に必要な経験抽出と利用能力を共同で改善する,効率的なアルゴリズムフレームワークであるEvolving-RLを提案する。
具体的には、評価から導出される2つの監視信号を用いて、学習過程の中心を置き、抽出器と解器を別々に最適化し、協調的共進化を可能にする。
ALFWorld と Mind2Web の実験では、Evolving-RL は LLM が経験を抽出し再利用する能力を効果的に向上し、アウト・オブ・ディストリビューションタスク(ALFWorld の GRPO ベースラインに対して最大98.7% の改善、Mind2Web の 35.8% )の性能向上につながっており、これらの向上は経験抽出と利用の協調進化によってのみ完全に解放されている。
さらに、Evolving-RLは本質的に経験増強RLアルゴリズムとして機能する。
再利用可能なエクスペリエンスパターンをモデルパラメータに直接内包することで、テスト時のエクスペリエンスの蓄積がなくても、目に見えるタスクと目に見えないタスクの両方において、標準的なベースラインよりも顕著なパフォーマンス向上を実現します。
関連論文リスト
- Experiential Reflective Learning for Self-Improving LLM Agents [1.1074589887824053]
実験的反射学習(ERL:Experiential Reflective Learning)は,迅速な環境適応を実現するシンプルな自己改善フレームワークである。
ERLはタスクの軌跡と成果を反映して、タスク間で伝達される実行可能なレッスンを生成する。
ERLはReActベースラインよりも成功率を7.8%向上させ、タスク完了の信頼性を大きく向上させる。
論文 参考訳(メタデータ) (2026-03-25T11:43:22Z) - Complementary Reinforcement Learning [31.660877399506493]
強化学習(Reinforcement Learning, RL)は、LLMベースのエージェントを訓練するための強力なパラダイムとして登場した。
歴史から蒸留された経験は、静的に保存されるか、改善されたアクターと共進化することができない。
神経科学における補完学習システムに着想を得て,経験抽出器と政策アクターのシームレスな共進化を実現するための補完的RLを提案する。
論文 参考訳(メタデータ) (2026-03-18T11:38:01Z) - Online Experiential Learning for Language Models [99.90826536842337]
Online Experiential Learning (OEL)は、言語モデルが自身のデプロイメントエクスペリエンスから継続的に改善できるフレームワークである。
OELは、まず、転送可能な経験知識を抽出し、ユーザ側で収集された相互作用軌跡から蓄積する。
テキストベースのゲーム環境において,複数のモデルスケールでOELを評価し,思考と非思考の両バリエーションについて検討した。
論文 参考訳(メタデータ) (2026-03-17T17:57:49Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文 参考訳(メタデータ) (2025-10-02T17:31:30Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。