論文の概要: Accelerating RLHF Training with Reward Variance Increase
- arxiv url: http://arxiv.org/abs/2505.23247v1
- Date: Thu, 29 May 2025 08:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.76902
- Title: Accelerating RLHF Training with Reward Variance Increase
- Title(参考訳): 逆変量増加を伴うRLHF加速訓練
- Authors: Zonglin Yang, Zhexuan Gu, Houduo Qi, Yancheng Yuan,
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。
本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
- 参考スコア(独自算出の注目度): 5.330219278966635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is an essential technique for ensuring that large language models (LLMs) are aligned with human values and preferences during the post-training phase. As an effective RLHF approach, group relative policy optimization (GRPO) has demonstrated success in many LLM-based applications. However, efficient GRPO-based RLHF training remains a challenge. Recent studies reveal that a higher reward variance of the initial policy model leads to faster RLHF training. Inspired by this finding, we propose a practical reward adjustment model to accelerate RLHF training by provably increasing the reward variance and preserving the relative preferences and reward expectation. Our reward adjustment method inherently poses a nonconvex optimization problem, which is NP-hard to solve in general. To overcome the computational challenges, we design a novel $O(n \log n)$ algorithm to find a global solution of the nonconvex reward adjustment model by explicitly characterizing the extreme points of the feasible set. As an important application, we naturally integrate this reward adjustment model into the GRPO algorithm, leading to a more efficient GRPO with reward variance increase (GRPOVI) algorithm for RLHF training. As an interesting byproduct, we provide an indirect explanation for the empirical effectiveness of GRPO with rule-based reward for RLHF training, as demonstrated in DeepSeek-R1. Experiment results demonstrate that the GRPOVI algorithm can significantly improve the RLHF training efficiency compared to the original GRPO algorithm.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。
効果的なRLHFアプローチとして、グループ相対ポリシー最適化(GRPO)は、多くのLLMベースのアプリケーションで成功している。
しかし、GRPOをベースとしたRLHFの効率的なトレーニングは依然として課題である。
近年の研究では、初期方針モデルのより高い報酬分散がRLHF訓練の高速化につながることが示されている。
そこで本研究では,RLHFトレーニングを加速するための実効的な報酬調整モデルを提案し,報酬の分散を良好に増加させ,相対的な嗜好と報奨期待を維持する。
我々の報酬調整法は本質的に非凸最適化問題であり、一般にNPハードである。
計算課題を克服するため,実現可能な集合の極点を明示的に特徴付けることにより,非凸報酬調整モデルの大域的解を求めるために,新しい$O(n \log n)$アルゴリズムを設計する。
重要な応用として、この報酬調整モデルをGRPOアルゴリズムに自然に統合し、RLHFトレーニングのための報奨分散増加(GRPOVI)アルゴリズムをより効率的にする。
興味深い副産物として、DeepSeek-R1で示されているように、GRPOがルールベースでRLHFトレーニングに有効であることを示す間接的な説明を提供する。
実験結果から,GRPOVIアルゴリズムはオリジナルのGRPOアルゴリズムと比較してRLHFトレーニング効率を大幅に向上できることが示された。
関連論文リスト
- A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。
また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文 参考訳(メタデータ) (2025-03-28T08:26:41Z) - Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。
変分推論の観点からRLHFの単純化を提案する。
我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-16T07:22:00Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。