論文の概要: CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution
- arxiv url: http://arxiv.org/abs/2604.15840v1
- Date: Fri, 17 Apr 2026 08:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.834749
- Title: CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution
- Title(参考訳): CoEvolve: エージェントデータ相互進化によるLDMエージェントのトレーニング
- Authors: Shidong Yang, Ziyu Ma, Tongwen Huang, Yiming Hu, Yong Wang, Xiangxiang Chu,
- Abstract要約: CoEvolveはエージェントデータ相互進化フレームワークで、LLMエージェントはクローズドループ、インタラクション駆動トレーニングを通じて改善できる。
CoEvolveは、ロールアウトトラジェクトリからの忘れや不確実性といったフィードバック信号を抽出して、障害が発生しやすいインタラクションパターンを特定する。
合成されたタスクは環境相互作用を通じて検証され、データ分布の更新に利用され、エージェントとそのデータの共同適応を可能にする。
- 参考スコア(独自算出の注目度): 17.762976387817762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning for LLM agents is typically conducted on a static data distribution, which fails to adapt to the agent's evolving behavior and leads to poor coverage of complex environment interactions. To address these challenges, we propose CoEvolve, an agent-data mutual evolution framework that enables LLM agents to improve through closed-loop, interaction-driven training. Specifically, CoEvolve extracts feedback signals such as forgetting and uncertainty from rollout trajectories to identify failure-prone interaction patterns, and utilizes them to guide LLM-based task synthesis. The synthesized tasks are validated through environment interaction and utilized to update the data distribution, enabling joint adaptation of the agent and its data. Extensive experiments on AppWorld and BFCL across Qwen2.5-7B, Qwen3-4B, and Qwen3-30B-A3B demonstrate consistent and significant improvements over strong base models, yielding absolute gains of 19.43%, 15.58%, and 18.14%, respectively.
- Abstract(参考訳): LLMエージェントの強化学習は、典型的には静的なデータ分布で行われ、エージェントの進化する振る舞いに適応できず、複雑な環境相互作用のカバレッジが低くなる。
これらの課題に対処するために,LLMエージェントをクローズドループ・インタラクション駆動トレーニングにより改善するエージェントデータ相互進化フレームワークであるCoEvolveを提案する。
特に、CoEvolveは、ロールアウト軌道からの忘れや不確実性などのフィードバック信号を抽出して、障害発生時の相互作用パターンを特定し、それらを利用してLCMベースのタスク合成をガイドする。
合成されたタスクは環境相互作用を通じて検証され、データ分布の更新に利用され、エージェントとそのデータの共同適応を可能にする。
Qwen2.5-7B、Qwen3-4B、Qwen3-30B-A3BにまたがるAppWorldとBFCLの大規模な実験では、強いベースモデルに対して一貫性があり、それぞれ19.43%、15.58%、および18.14%の絶対ゲインが得られた。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Towards Agentic Self-Learning LLMs in Search Environment [36.158823302039195]
自己学習が人間の計算したデータセットや事前定義されたルールベースの報酬に頼ることなく、LSMベースのエージェントをスケールできるかどうかを検討する。
生成的リワードモデル(GRM)の報酬は、オープンドメイン学習のための厳密なルールベースの信号より優れている。
完全閉ループ・マルチロール強化学習フレームワークである textbfAgentic Self-Learning (ASL) を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:11:56Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.916663925674737]
これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文 参考訳(メタデータ) (2025-05-29T03:02:18Z) - Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。
本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:17:17Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。