論文の概要: OPPO: Accelerating PPO-based RLHF via Pipeline Overlap
- arxiv url: http://arxiv.org/abs/2509.25762v1
- Date: Tue, 30 Sep 2025 04:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.015221
- Title: OPPO: Accelerating PPO-based RLHF via Pipeline Overlap
- Title(参考訳): OPPO:パイプラインオーバーラップによるPPOベースのRLHFの高速化
- Authors: Kaizhuo Yan, Yingjie Yu, Yifan Yu, Haizhong Zheng, Fan Lai,
- Abstract要約: 我々は,パイプライン実行を重畳することでトレーニング効率を向上させる,新しい,軽量で,モデルに依存しないPPOベースのRLHFフレームワークOPPOを提案する。
OPPOはPPOベースのRLHFトレーニングを1.8倍-2.8倍で加速し、GPU使用率を1.4倍-2.1倍で改善する。
- 参考スコア(独自算出の注目度): 7.65096527709153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimization (PPO)-based reinforcement learning from human feedback (RLHF) is a widely adopted paradigm for aligning large language models (LLMs) with human preferences. However, its training pipeline suffers from substantial inefficiencies due to sequential multi-model dependencies (e.g., reward model depends on actor outputs) and long-tail response lengths, where a few long responses straggle the stage completion. We present OPPO, a novel, lightweight, and model-agnostic PPO-based RLHF framework that improves training efficiency by overlapping pipeline execution. OPPO introduces two novel techniques: (1) Intra-step overlap, which streams upstream model outputs (e.g., actor model) in right-sized chunks, enabling the downstream model (e.g., reward) to begin prefill while the upstream continues decoding; and (2) Inter-step overlap, which adaptively overcommits a few prompts and defers long generations to future steps, mitigating tail latency without discarding partial work. OPPO integrates easily with existing PPO implementations with a few lines of code change. Extensive evaluations show that OPPO accelerates PPO-based RLHF training by $1.8 \times-2.8 \times$ and improves GPU utilization by $1.4 \times-2.1 \times$ without compromising training convergence.
- Abstract(参考訳): Proximal Policy Optimization(PPO)に基づく人間フィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに合わせるための広く採用されているパラダイムである。
しかし、トレーニングパイプラインは、連続したマルチモデル依存(例えば、報酬モデルはアクターの出力に依存する)と長い尾の応答長によってかなりの非効率性に悩まされ、いくつかの長い応答がステージ完了を揺るがす。
我々は,パイプライン実行を重畳することでトレーニング効率を向上させる,新しい,軽量で,モデルに依存しないPPOベースのRLHFフレームワークOPPOを提案する。
OPPOは,(1)上流モデル出力(例えば,アクターモデル)を右サイズのチャンクにストリームし,上流モデル(例えば,報酬)をプリフィルし,(2)上流モデルが復号を継続する間,ステップ間オーバーラップし,(2)いくつかのプロンプトを適応的にオーバーコミットし,将来のステップに長続きするステップ間オーバーラップを行い,部分的な作業を捨てることなくテール遅延を緩和する。
OPPOは、数行のコード変更で既存のPPO実装と簡単に統合できます。
大規模な評価では、OPPOはPPOベースのRLHFトレーニングを1.8 \times-2.8 \times$で加速し、トレーニング収束を損なうことなく1.4 \times-2.1 \times$でGPU利用を改善する。
関連論文リスト
- Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions [0.5416466085090772]
emphQuantile Reward Policy Optimization (QRPO)を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-10T17:56:24Z) - Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。
不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。
我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-06-18T01:21:38Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。