論文の概要: EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05943v1
- Date: Tue, 07 Oct 2025 13:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.277623
- Title: EARL: Efficient Agentic Reinforcement Learning Systems for Large Language Models
- Title(参考訳): EARL:大規模言語モデルのための効率的なエージェント強化学習システム
- Authors: Zheyue Tan, Mustapha Abdullahi, Tuo Shi, Huining Yuan, Zelai Xu, Chao Yu, Boxun Li, Bo Zhao,
- Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素となっている。
本稿では,効率的なエージェントRLのためのスケーラブルなシステムEARLを提案する。
- 参考スコア(独自算出の注目度): 10.372430331898608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a pivotal component of large language model (LLM) post-training, and agentic RL extends this paradigm to operate as agents through multi-turn interaction and tool use. Scaling such systems exposes two practical bottlenecks: (1) context length grows rapidly during training, inflating memory usage and latency, and triggering out-of-memory (OOM) failures; and (2) intermediate tensors accumulate with context length, making cross-device data movement a major system bottleneck. We present EARL, a scalable system for efficient agentic RL. EARL designs a parallelism selector that dynamically adapts model and training parallelism across RL stages based on sequence length and system load, and a data dispatcher that performs layout-aware, decentralized exchange of intermediate data batches. Together, these components increase throughput, reduce long-context failures, and enable stable large-scale training of agentic LLMs without relying on hard limits or penalties of context length.
- Abstract(参考訳): 強化学習(RL)は大規模言語モデル(LLM)ポストトレーニングの重要な要素となり、エージェントRLはこのパラダイムを拡張し、マルチターンインタラクションやツール使用を通じてエージェントとして機能する。
このようなシステムのスケーリングには,(1) トレーニング中にコンテキスト長が急速に増加し,メモリ使用量と遅延が膨らみ,(2) 中間テンソルがコンテキスト長に蓄積され,デバイス間のデータ移動がシステムボトルネックとなる,という2つの現実的なボトルネックがある。
本稿では,効率的なエージェントRLのためのスケーラブルなシステムEARLを提案する。
EARLは、シーケンス長とシステム負荷に基づいてRLステージにわたってモデルとトレーニングの並列化を動的に適応する並列性セレクタと、中間データバッチのレイアウトを意識した分散交換を行うデータディスパッチを設計する。
これらのコンポーネントはスループットを向上し、長時間のコンテキスト障害を低減し、ハードリミットやコンテキスト長のペナルティに依存することなく、エージェントLLMの大規模なトレーニングを可能にする。
関連論文リスト
- AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation [47.510888611491]
大規模言語モデル(LLM)の推論能力を高めるために強化学習(RL)がますます活用されている。
本稿では、ハードウェア効率と政治上のデータとの良好なトレードオフを実現するために設計されたPipelineRLを紹介する。
論文 参考訳(メタデータ) (2025-09-23T15:15:21Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning [20.683081355473664]
分散マルチエージェント学習(DML)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にする。
ComDMLは分散アプローチを通じてエージェント間のワークロードのバランスをとる。
ComDMLは、最先端の手法と比較して、モデル精度を維持しながら、トレーニング全体の時間を著しく短縮することができる。
論文 参考訳(メタデータ) (2024-05-01T20:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。