論文の概要: RLHFSpec: Breaking the Efficiency Bottleneck in RLHF Training via Adaptive Drafting
- arxiv url: http://arxiv.org/abs/2512.04752v1
- Date: Thu, 04 Dec 2025 12:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.167019
- Title: RLHFSpec: Breaking the Efficiency Bottleneck in RLHF Training via Adaptive Drafting
- Title(参考訳): RLHFSpec: 適応描画によるRLHFトレーニングにおける効率ボツネックの破壊
- Authors: Siqi Wang, Hailong Yang, Junjie Zhu, Xuezhu Wang, Yufan Xu, Depei Qian,
- Abstract要約: 生成ステージは、実行プロセス全体のボトルネックです。
本稿ではRLHFSpecを提案する。RLHFSpecは適応的投機復号とサンプル再配置により生成実行を高速化するシステムである。
実験の結果、RLHFSpecは、最先端の作業と比較して、生成段階で高いスループットを達成できることがわかった。
- 参考スコア(独自算出の注目度): 20.474457775434633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is an important fine-tuning technique for large language models (LLMs) and comprises three stages: generation, inference, and training. The generation stage generates samples that are then used to infer learnable experiences for training. We observe that the generation stage is the bottleneck of the entire execution process and consider it a key point for optimization. Specifically, we realize the first attempt to integrate speculative decoding into the RLHF generation stage and propose RLHFSpec, an RLHF system that accelerates generation execution with adaptive speculative decoding and sample reallocation. To fully exploit the performance potential provided by speculative decoding, especially dealing with the dynamic workload of the generation stage, RLHFSpec proposes a workload-aware drafting strategy selection mechanism, which selects the near-optimal strategy by jointly considering the verification cost and the number of accepted tokens. Moreover, RLHFSpec also proposes sample reallocation to fully utilize the GPU resources, and optimizes it with an efficient sample migration mechanism. The experimental results show that the RLHFSpec can achieve higher throughput in the generation stage compared to state-of-the-art works. Moreover, due to the effective alleviation of the generation bottleneck, RLHFSpec also shows significant performance speedup in the entire RLHF execution.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)の重要な微調整技術であり、生成、推論、訓練の3段階からなる。
生成段階は、学習可能なトレーニング経験を推測するために使用されるサンプルを生成する。
我々は、生成段階が実行プロセス全体のボトルネックであり、最適化のキーポイントであると考えている。
具体的には、RLHF生成段階に投機的復号化を統合する最初の試みを実現し、適応的投機的復号化とサンプル再配置による生成の実行を高速化するRLHFSpecを提案する。
RLHFSpecは、投機的復号化によって提供される性能ポテンシャル、特に生成段階の動的ワークロードを扱うために、検証コストと許容トークン数とを共同で考慮して、最適に近い戦略を選択するワークロード対応の起草戦略選択機構を提案する。
さらに、RLHFSpecはGPUリソースを完全に活用するサンプル再配置を提案し、効率的なサンプルマイグレーションメカニズムで最適化する。
実験の結果、RLHFSpecは、最先端の作業と比較して、生成段階で高いスループットを達成できることがわかった。
さらに、生成ボトルネックを効果的に緩和するため、RLHFSpecはRLHFの実行全体において大幅な性能向上を示す。
関連論文リスト
- Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Optimizing RLHF Training for Large Language Models with Stage Fusion [10.165579735221092]
RLHFuseは,人間からの強化学習を段階融合した効率的な学習システムである。
RLHFuseは、個々のタスクの合成としてRLHFワークフローの従来のビューを分解し、各タスクをよりきめ細かいサブタスクに分割する。
実験によると、RLHFuseは既存のシステムと比較してトレーニングのスループットを最大3.7倍に向上している。
論文 参考訳(メタデータ) (2024-09-20T05:15:38Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。