論文の概要: Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
- arxiv url: http://arxiv.org/abs/2507.06892v1
- Date: Wed, 09 Jul 2025 14:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.621998
- Title: Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
- Title(参考訳): Squeeze the Soaked Sponge: 大規模言語モデルのための効率的な外部強化ファインタニング
- Authors: Jing Liang, Hongyao Tang, Yi Ma, Jinyi Liu, Yan Zheng, Shuyue Hu, Lei Bai, Jianye Hao,
- Abstract要約: 本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
- 参考スコア(独自算出の注目度): 56.92219181993453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) has demonstrated its potential to improve the reasoning ability of Large Language Models (LLMs). One major limitation of most existing Reinforcement Finetuning (RFT) methods is that they are on-policy RL in nature, i.e., data generated during the past learning process is not fully utilized. This inevitably comes at a significant cost of compute and time, posing a stringent bottleneck on continuing economic and efficient scaling. To this end, we launch the renaissance of off-policy RL and propose Reincarnating Mix-policy Proximal Policy Gradient (ReMix), a general approach to enable on-policy RFT methods like PPO and GRPO to leverage off-policy data. ReMix consists of three major components: (1) Mix-policy proximal policy gradient with an increased Update-To-Data (UTD) ratio for efficient training; (2) KL-Convex policy constraint to balance the trade-off between stability and flexibility; (3) Policy reincarnation to achieve a seamless transition from efficient early-stage learning to steady asymptotic improvement. In our experiments, we train a series of ReMix models upon PPO, GRPO and 1.5B, 7B base models. ReMix shows an average Pass@1 accuracy of 52.10% (for 1.5B model) with 0.079M response rollouts, 350 training steps and achieves 63.27%/64.39% (for 7B model) with 0.007M/0.011M response rollouts, 50/75 training steps, on five math reasoning benchmarks (i.e., AIME'24, AMC'23, Minerva, OlympiadBench, and MATH500). Compared with 15 recent advanced models, ReMix shows SOTA-level performance with an over 30x to 450x reduction in training cost in terms of rollout data volume. In addition, we reveal insightful findings via multifaceted analysis, including the implicit preference for shorter responses due to the Whipping Effect of off-policy discrepancy, the collapse mode of self-reflection behavior under the presence of severe off-policyness, etc.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力を向上させる可能性を示した。
既存のReinforcement Finetuning(RFT)手法の最大の制限は、それらは本質的には政治上のRLである、すなわち、過去の学習プロセスで生成されたデータが完全に活用されていないことである。
これは必然的に計算と時間の大幅なコストを伴い、経済的かつ効率的なスケーリングの継続に厳しいボトルネックを生じさせる。
この目的のために、我々は、政治外RLのルネッサンスをローンチし、政治外データを活用するために、PPOやGRPOのような政治外RFTメソッドを有効にするための一般的なアプローチである、混成政策の緩和(Reincarnating Mix-policy Proximal Policy Gradient)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から漸近的改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
実験では,PPO,GRPO,1.5B,7Bベースモデルに基づいて,一連のReMixモデルを訓練する。
ReMixのPass@1の精度は平均52.10%、0.079Mのレスポンスロールアウト、350のトレーニングステップ、63.27%/64.39%、0.007M/0.011Mのレスポンスロールアウト、50/75のトレーニングステップの5つの数学推論ベンチマーク(AIME'24、AMC'23、Minerva、OlympiadBench、MATH500)である。
最近の15の先進モデルと比較して、ReMixはSOTAレベルのパフォーマンスを示し、ロールアウトデータボリュームのトレーニングコストを30倍から450倍に削減した。
また,多面的分析により,非政治不一致のホイップ効果による短反応の暗黙的嗜好,重度の非政治的存在下での自己回帰行動の崩壊モードなど,洞察に富んだ知見を明らかにした。
関連論文リスト
- Mutual-Taught for Co-adapting Policy and Reward Models [43.11214888109746]
政策モデルと報酬モデルの両方を反復的に改善する自己学習手法であるMutual-Taughtを提案する。
実験の結果、この反復的なアプローチは両方のモデルに一貫した改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-17T04:34:23Z) - On the Robustness of Reward Models for Language Model Alignment [9.804782604188656]
我々はBradley-Terry(BT)モデルを用いて訓練した報酬モデルにおいて、過度に最適化される原因について検討する。
隠れ状態ノルムの過度な分散が過度な最適化の源であることを示す。
最先端のRMを8Bスケールで超越した高品質なデータとモデルにBSRを適用した。
論文 参考訳(メタデータ) (2025-05-12T06:48:26Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models [30.276168676690045]
ヒトフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)の整合化の鍵となる。
本稿では,RLHFの3つの特性(高速シミュレーション,決定論的遷移,軌道レベルの報酬)を活用するReMaxを提案する。
実装が簡単で、PPOの4つ以上のハイパーパラメータを排除し、GPUメモリ使用量を削減し、トレーニング時間を短縮する。
Mistral-7BモデルにReMaxを適用すると、AlpacaEvalのリーダーボードで94.78%の勝利率、MT-benchで7.739のスコアが得られ、オープンソース7Bモデル向けに新しいSOTAが設定された。
論文 参考訳(メタデータ) (2023-10-16T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。