論文の概要: PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation
- arxiv url: http://arxiv.org/abs/2509.19128v2
- Date: Fri, 26 Sep 2025 20:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 11:50:46.817857
- Title: PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation
- Title(参考訳): PipelineRL: 長いシーケンス生成のためのより高速なオンライン強化学習
- Authors: Alexandre Piché, Ehsan Kamalloo, Rafael Pardinas, Xiaoyin Chen, Dzmitry Bahdanau,
- Abstract要約: 大規模言語モデル(LLM)の推論能力を高めるために強化学習(RL)がますます活用されている。
本稿では、ハードウェア効率と政治上のデータとの良好なトレードオフを実現するために設計されたPipelineRLを紹介する。
- 参考スコア(独自算出の注目度): 47.510888611491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is increasingly utilized to enhance the reasoning capabilities of Large Language Models (LLMs). However, effectively scaling these RL methods presents significant challenges, primarily due to the difficulty in maintaining high AI accelerator utilization without generating stale, off-policy data that harms common RL algorithms. This paper introduces PipelineRL, an approach designed to achieve a superior trade-off between hardware efficiency and data on-policyness for LLM training. PipelineRL employs concurrent asynchronous data generation and model training, distinguished by the novel in-flight weight updates. This mechanism allows the LLM generation engine to receive updated model weights with minimal interruption during the generation of token sequences, thereby maximizing both the accelerator utilization and the freshness of training data. Experiments conducted on long-form reasoning tasks using 128 H100 GPUs demonstrate that PipelineRL achieves approximately $\sim 2x$ faster learning compared to conventional RL baselines while maintaining highly on-policy training data. A scalable and modular open-source implementation of PipelineRL is also released as a key contribution.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるためにますます活用されている。
しかし、これらのRL手法を効果的にスケールすることは、主に、一般的なRLアルゴリズムに害を与える不安定なオフポリシーデータを生成することなく、ハイAIアクセラレータの利用を維持することの難しさから、重大な課題を呈している。
本稿では,LLMトレーニングにおけるハードウェア効率とデータオン・ポリティシティーのトレードオフに優れたPipelineRLを提案する。
PipelineRLは、新しい飛行中の重み更新によって区別される、同時非同期データ生成とモデルトレーニングを採用している。
この機構により、LLM生成エンジンは、トークンシーケンスの生成時に最小限の中断で更新されたモデル重みを受信でき、これにより、加速器の利用率とトレーニングデータの鮮度の両方を最大化する。
128のH100 GPUを用いた長期的推論タスクの実験により、PipelineRLは従来のRLベースラインと比較して約$\sim 2x$の高速な学習を実現し、高度にオンラインのトレーニングデータを維持していることが示された。
PipelineRLのスケーラブルでモジュール化されたオープンソース実装も、重要なコントリビューションとしてリリースされた。
関連論文リスト
- Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-05T08:03:12Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
オンラインDPOは、政治以外のデータに対して最も堅牢である。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [3.2288603733409498]
条件拡散モデルを適応可能な行動として扱う政策枠組みを厳格に提示する。
前者はログ化されたデータに基づいて事前訓練され、サンプリング時にのみオンラインで、現在のポリシーステートでのアクションの提案に使用される。
以上の結果から,事前の適応的拡散行動は,緊密な相互作用予算の下での政策PPOを強化するための実践的な方法であることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。