Fugu-MT 論文翻訳(概要): RLHFSpec: Breaking the Efficiency Bottleneck in RLHF Training via Adaptive Drafting

論文の概要: RLHFSpec: Breaking the Efficiency Bottleneck in RLHF Training via Adaptive Drafting

arxiv url: http://arxiv.org/abs/2512.04752v1
Date: Thu, 04 Dec 2025 12:41:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:46.167019
Title: RLHFSpec: Breaking the Efficiency Bottleneck in RLHF Training via Adaptive Drafting
Title（参考訳）: RLHFSpec: 適応描画によるRLHFトレーニングにおける効率ボツネックの破壊
Authors: Siqi Wang, Hailong Yang, Junjie Zhu, Xuezhu Wang, Yufan Xu, Depei Qian,
Abstract要約: 生成ステージは、実行プロセス全体のボトルネックです。本稿ではRLHFSpecを提案する。RLHFSpecは適応的投機復号とサンプル再配置により生成実行を高速化するシステムである。実験の結果、RLHFSpecは、最先端の作業と比較して、生成段階で高いスループットを達成できることがわかった。
参考スコア（独自算出の注目度）: 20.474457775434633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) is an important fine-tuning technique for large language models (LLMs) and comprises three stages: generation, inference, and training. The generation stage generates samples that are then used to infer learnable experiences for training. We observe that the generation stage is the bottleneck of the entire execution process and consider it a key point for optimization. Specifically, we realize the first attempt to integrate speculative decoding into the RLHF generation stage and propose RLHFSpec, an RLHF system that accelerates generation execution with adaptive speculative decoding and sample reallocation. To fully exploit the performance potential provided by speculative decoding, especially dealing with the dynamic workload of the generation stage, RLHFSpec proposes a workload-aware drafting strategy selection mechanism, which selects the near-optimal strategy by jointly considering the verification cost and the number of accepted tokens. Moreover, RLHFSpec also proposes sample reallocation to fully utilize the GPU resources, and optimizes it with an efficient sample migration mechanism. The experimental results show that the RLHFSpec can achieve higher throughput in the generation stage compared to state-of-the-art works. Moreover, due to the effective alleviation of the generation bottleneck, RLHFSpec also shows significant performance speedup in the entire RLHF execution.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)の重要な微調整技術であり、生成、推論、訓練の3段階からなる。生成段階は、学習可能なトレーニング経験を推測するために使用されるサンプルを生成する。我々は、生成段階が実行プロセス全体のボトルネックであり、最適化のキーポイントであると考えている。具体的には、RLHF生成段階に投機的復号化を統合する最初の試みを実現し、適応的投機的復号化とサンプル再配置による生成の実行を高速化するRLHFSpecを提案する。 RLHFSpecは、投機的復号化によって提供される性能ポテンシャル、特に生成段階の動的ワークロードを扱うために、検証コストと許容トークン数とを共同で考慮して、最適に近い戦略を選択するワークロード対応の起草戦略選択機構を提案する。さらに、RLHFSpecはGPUリソースを完全に活用するサンプル再配置を提案し、効率的なサンプルマイグレーションメカニズムで最適化する。実験の結果、RLHFSpecは、最先端の作業と比較して、生成段階で高いスループットを達成できることがわかった。さらに、生成ボトルネックを効果的に緩和するため、RLHFSpecはRLHFの実行全体において大幅な性能向上を示す。

関連論文リスト

RLHFless: Serverless Computing for Efficient RLHF [13.743738615300662]
Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) のポストトレーニングに広く応用されている。サーバレスコンピューティング環境上に構築された、同期RLHFのための最初のスケーラブルなトレーニングフレームワークであるRLHFlessを紹介します。
論文参考訳（メタデータ） (2026-02-26T07:45:37Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文参考訳（メタデータ） (2025-12-15T18:02:35Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Filtering Learning Histories Enhances In-Context Reinforcement Learning [12.697029805927398]
トランスフォーマーモデル(TM)は、テキスト内強化学習能力に優れていた。我々は、ICRLを強化するために、単純で効果的な学習履歴フィルタリング(LHF)を提案する。 LHFは、データセット前処理によるソースの最適化を回避するための最初のアプローチである。
論文参考訳（メタデータ） (2025-05-21T06:00:41Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。オンラインDPOは、政治以外のデータに対して最も堅牢である。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
Optimizing RLHF Training for Large Language Models with Stage Fusion [10.165579735221092]
RLHFuseは,人間からの強化学習を段階融合した効率的な学習システムである。 RLHFuseは、個々のタスクの合成としてRLHFワークフローの従来のビューを分解し、各タスクをよりきめ細かいサブタスクに分割する。実験によると、RLHFuseは既存のシステムと比較してトレーニングのスループットを最大3.7倍に向上している。
論文参考訳（メタデータ） (2024-09-20T05:15:38Z)
RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。 RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文参考訳（メタデータ） (2024-05-13T15:50:39Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文参考訳（メタデータ） (2023-08-04T09:35:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。