論文の概要: Scaling Agent Learning via Experience Synthesis
- arxiv url: http://arxiv.org/abs/2511.03773v1
- Date: Wed, 05 Nov 2025 18:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.179747
- Title: Scaling Agent Learning via Experience Synthesis
- Title(参考訳): 経験的合成によるスケーリングエージェント学習
- Authors: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh,
- Abstract要約: 強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。
私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。
高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
- 参考スコア(独自算出の注目度): 100.42712232390532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
- Abstract(参考訳): 強化学習(RL)は、対話による自己改善を可能にすることで、大規模言語モデル(LLM)エージェントを強化できるが、コストのかかるロールアウト、タスクの多様性の制限、信頼性の低い報酬信号、インフラストラクチャの複雑さなどにより、その実践的採用は依然として困難である。
これらの課題に対処するために、DreamGymを紹介します。DreamGymは、自律エージェントのためのオンラインRLトレーニングを効果的に行えるように、スケーラビリティを念頭に置いて多様なエクスペリエンスを合成するように設計された最初の統合フレームワークです。
高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに精算し、ステップバイステップの推論を通じて一貫した状態遷移とフィードバックシグナルを導出し、RLのためのスケーラブルなエージェントロールアウトコレクションを可能にする。
トランジションの安定性と品質を改善するために、DreamGymはオフラインの現実世界データで初期化され、新鮮なインタラクションで継続的にリッチ化され、エージェントトレーニングを積極的にサポートするエクスペリエンス再生バッファを利用する。
知識獲得を改善するために、DreamGymは、現在のエージェントポリシーに挑戦する新しいタスクを適応的に生成し、より効果的なオンラインカリキュラム学習を可能にする。
多様な環境とエージェントのバックボーンにわたる実験により、DreamGymは完全な総合的な設定とシミュレート・トゥ・リアルな転送シナリオの両方において、RLトレーニングを大幅に改善することが示された。
WebArenaのようなRL対応でないタスクでは、DreamGymはすべてのベースラインを30%以上上回っている。
そして、RL対応だがコストがかかる設定では、GRPOとPPOのパフォーマンスとを合成相互作用のみで一致させる。
合成経験に基づいて純粋に訓練されたポリシーを実環境RLに転送すると、DreamGymはより少ない現実世界の相互作用を必要とする一方で、大幅なパフォーマンス向上をもたらし、汎用RLのためのスケーラブルなウォームスタート戦略を提供する。
関連論文リスト
- Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。