Fugu-MT 論文翻訳(概要): AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

論文の概要: AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

arxiv url: http://arxiv.org/abs/2505.24298v1
Date: Fri, 30 May 2025 07:18:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.829026
Title: AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
Title（参考訳）: AReaL: 言語推論のための大規模非同期強化学習システム
Authors: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu,
Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)を訓練するためのトレンドパラダイムとなっている。 LLMのための既存の大規模RLシステムは、バッチ設定で生成とトレーニングを交互に行うことで同期化されている。本稿では,非同期RLシステムであるAReaLについて述べる。
参考スコア（独自算出の注目度）: 26.103555014247117
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a \emph{fully asynchronous} RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves \textbf{up to 2.57$\times$ training speedup} compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、特に推論タスクにおいて、大規模言語モデル(LLM)を訓練するためのトレンドパラダイムとなっている。 LLMの効果的なRLは大規模な並列化を必要とし、効率的な訓練システムを必要とする。 LLM用の既存の大規模RLシステムは、バッチ設定で生成とトレーニングを交互に同期し、各トレーニングバッチにおけるロールアウトは、同じ(または最新の)モデルで生成される。これはRLトレーニングを安定させるが、システムレベルの非効率性に悩まされる。生成は、モデル更新の前にバッチ内の最長出力が完了するまで待たなければならない。本稿では,AReaLについて述べる。AReaLは,学習から生成を完全に分離するRLシステムである。 AReaLのロールアウトワーカーは待機せずに新しいアウトプットを生成し、トレーニングワーカーはデータのバッチが収集されるたびにモデルを更新する。 AReaLはまた、システムレベルの最適化のコレクションも組み込まれており、GPU使用率が大幅に向上している。 RLトレーニングの安定化のために、AReaLはロールアウトとトレーニングワーカーの作業負荷のバランスを保ち、データの不安定性を制御するとともに、旧式なトレーニングサンプルの処理を改善するために、旧式なPPO変異を採用した。数学とコード推論のベンチマークに関する大規模な実験によると、AReaLは、同じ数のGPUを持つ最高の同期システムと比較すると、2.57$\times$ training speedup}に達する。 AReaLのコードはhttps://github.com/inclusionAI/AReaL/で公開されている。

関連論文リスト

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文参考訳（メタデータ） (2025-08-07T13:37:04Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training [32.575669924032276]
強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。本稿では,LlamaRLについて述べる。LlamaRLは大規模LLMの効率的なトレーニングに最適化された,完全に分散された非同期RLフレームワークである。
論文参考訳（メタデータ） (2025-05-29T22:14:15Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。オンラインDPOは、政治以外のデータに対して最も堅牢である。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。効率的なRLHFトレーニングのための先駆的システムであるReaLを紹介する。最大700億のパラメータと128のGPUを持つLLaMAモデル上でReaLを評価する。
論文参考訳（メタデータ） (2024-06-20T08:04:07Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。