論文の概要: Accelerating Long-Tail Generation in Synchronous RLHF Training via Adaptive Tensor Parallelism
- arxiv url: http://arxiv.org/abs/2605.23945v1
- Date: Sun, 03 May 2026 05:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.964315
- Title: Accelerating Long-Tail Generation in Synchronous RLHF Training via Adaptive Tensor Parallelism
- Title(参考訳): 適応的テンソル並列性を用いたRLHF同期訓練における長時間学習の高速化
- Authors: Long Zhao, Qinghe Wang, Jiaan Zhu, Youhui Bai, Zewen Jin, Chaoyi Ruan, Shengnan Wang, Cheng Li,
- Abstract要約: 本稿では,各RLHFイテレーションの生成段階でTPを再構成する適応型TP手法であるPATを提案する。
オンライン再構成メカニズムは、TPの変更によって影響を受ける状態とレイアウトだけを更新する。
PATは、オリジナルのVeRLセットアップと比較して、生成遅延を最大34.6%削減し、エンドツーエンドのRLHFトレーニングレイテンシを最大27.2%削減する。
- 参考スコア(独自算出の注目度): 11.019309466529643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a key post-training paradigm for improving model quality. However, the synchronous three-stage RLHF pipeline is often bottlenecked by the generation stage, where response-length skew causes the effective batch size to shrink rapidly during decoding, leaving GPUs underutilized while a few long responses remain unfinished. Mainstream frameworks employ a static tensor parallelism (TP) configuration that cannot adapt to changing batch characteristics, leaving substantial performance headroom unexplored. We propose PAT, an adaptive TP method that dynamically reconfigures TP during the generation stage of each RLHF iteration. PAT introduces two key techniques. First, a predictor-guided online reconfiguration method decides both the reconfiguration point and the target TP configuration based on offline profiling, triggering reconfiguration only when the predicted latency benefit outweighs the reconfiguration overhead. Second, a lightweight online reconfiguration mechanism updates only the states and layouts affected by TP changes: it adapts unfinished decoding states through a cost-model-based choice between KV-cache migration and recomputation, performs in-place weight resharding, and reuses cached communication groups. We implement PAT on top of SGLang and integrate it with the VeRL framework. Evaluations on LLaMA3.1-8B and Qwen3-14B using DeepScaleR show that PAT reduces generation latency by up to 34.6% and end-to-end RLHF training iteration latency by up to 27.2% compared to the original VeRL setup.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、モデル品質を改善するためのトレーニング後の重要なパラダイムとなっている。
しかし、同期3段階のRLHFパイプラインは、応答長スキューによってデコード中に有効なバッチサイズが急速に縮小し、GPUは未使用のままであり、長いレスポンスは未完成のままである。
メインストリームフレームワークは静的テンソル並列性(TP)構成を採用しており、バッチ特性の変化に対応できないため、かなりのパフォーマンスのヘッドルームは未調査のままである。
本稿では,各RLHFイテレーションの生成段階において,TPを動的に再構成する適応型TP手法であるPATを提案する。
PATは2つの重要なテクニックを導入している。
まず、オフラインプロファイリングに基づいて、リコンフィグレーションポイントとターゲットTP構成の両方を決定し、予測レイテンシの利点がリコンフィグレーションのオーバーヘッドを上回る場合にのみリコンフィグレーションをトリガーする。
第二に、軽量なオンライン再構成メカニズムは、TPの変更によって影響を受ける状態とレイアウトだけを更新する: KV-cacheマイグレーションと再計算の間のコストモデルに基づく選択によって未完成のデコード状態に適応し、その場での重み付けリシャーディングを実行し、キャッシュされた通信グループを再利用する。
我々は,SGLang上にPATを実装し,VeRLフレームワークと統合する。
DeepScaleRを用いたLLaMA3.1-8BとQwen3-14Bの評価は、PATが生成遅延を最大34.6%削減し、エンドツーエンドのRLHFトレーニング繰り返し遅延をオリジナルのVeRLセットアップと比較して最大27.2%削減したことを示している。
関連論文リスト
- Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration [61.46060073417047]
MTP(Multi-Token Prediction)は、事前トレーニングにおいて広く採用されているモジュールである。
RL目標に対するMPPの段差効果は,第1次相関と第2次ペナルティの2つの項に分解できることを示す。
本稿では,ログ確率プロキシを用いて最適係数を無視可能なコストでオンラインで追跡する適応型手法を提案する。
論文 参考訳(メタデータ) (2026-05-27T09:07:06Z) - Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding [8.43502622452414]
RLロールアウトにおけるアクセラレーションプリミティブとしての投機的復号化について検討する。
VLLMバックエンドでNeMo-RLの投機的復号化を実装した。
投機的デコーディングと非同期RLを組み合わせることで,最大2.5倍のエンドツーエンドのトレーニングスピードアップを235Bスケールで達成する。
論文 参考訳(メタデータ) (2026-04-29T15:11:48Z) - SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - Efficient and Stable Reinforcement Learning for Diffusion Language Models [59.75789436018925]
拡散型大規模言語モデル(dLLM)の複雑な推論能力を解き放つには強化学習(RL)が不可欠である
dLLMの適用は、効率と安定性において、ユニークな課題に直面します。
本稿では,dLLMに対するRLの効率性と安定性を同時に向上するフレームワークであるスポース・テンポラル・プルーニング(STP)を提案する。
論文 参考訳(メタデータ) (2026-02-09T17:04:23Z) - Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL [16.40150726450328]
帯域幅に制約のある分散環境では,100倍(14 GBから108 MB)の通信削減を実現している。
本研究は,重み付け時空間の段階的および多段階的粒度に関する系統的研究である。
アップデートの間隔は一貫して高く、実際に関係のある設定で99%を超えることがよくあります。
論文 参考訳(メタデータ) (2026-02-03T18:56:48Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - RTP: Rethinking Tensor Parallelism with Memory Deduplication [3.036340414461332]
Rotated Parallelism(RTP)は、分散トレーニング環境におけるメモリ重複に着目した革新的なアプローチである。
我々の経験的評価はRTPの効率を裏付けるものであり、分散システムトレーニング中のメモリ消費が極めて最適に近いことを示している。
論文 参考訳(メタデータ) (2023-11-02T23:12:42Z) - RepSR: Training Efficient VGG-style Super-Resolution Networks with
Structural Re-Parameterization and Batch Normalization [30.927648867624498]
本稿では,構造的再パラメータ化手法を用いて,効率的なVGG型超解像(SR)ネットワークのトレーニングについて検討する。
バッチ正規化(BN)は、トレーニングの非線形性をもたらし、最終的なパフォーマンスを改善するために重要である。
特に、我々はまず、通常通りミニバッチ統計を用いたSRネットワークを訓練し、その後、人口統計を使用するように切り替える。
論文 参考訳(メタデータ) (2022-05-11T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。