論文の概要: What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret
- arxiv url: http://arxiv.org/abs/2503.01491v1
- Date: Mon, 03 Mar 2025 12:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:36.412935
- Title: What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret
- Title(参考訳): 長期CoTにおけるPPOの崩壊の背後にあるものは何か? 価値最適化は秘密を守る
- Authors: Yufeng Yuan, Yu Yue, Ruofei Zhu, Tiantian Fan, Lin Yan,
- Abstract要約: これらの問題に対処するために,VC-PPO(Value-Calibrated PPO)を提案する。
The American Invitational Mathematics Examination (AIME) の実験は、VC-PPOがPPOのパフォーマンスを著しく向上させることを示している。
- 参考スコア(独自算出の注目度): 3.410112345043215
- License:
- Abstract: Reinforcement learning (RL) is pivotal for enabling large language models (LLMs) to generate long chains of thought (CoT) for complex tasks like math and reasoning. However, Proximal Policy Optimization (PPO), effective in many RL scenarios, fails in long CoT tasks. This paper identifies that value initialization bias and reward signal decay are the root causes of PPO's failure. We propose Value-Calibrated PPO (VC-PPO) to address these issues. In VC-PPO, the value model is pretrained to tackle initialization bias, and the Generalized Advantage Estimation (GAE) computation is decoupled between the actor and critic to mitigate reward signal decay. Experiments on the American Invitational Mathematics Examination (AIME) show that VC-PPO significantly boosts PPO performance. Ablation studies show that techniques in VC-PPO are essential in enhancing PPO for long CoT tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)が数学や推論のような複雑なタスクのために長いチェーンの思考(CoT)を生成できるようにするための重要な要素である。
しかし、多くのRLシナリオで有効であるPPOは、長いCoTタスクで失敗する。
本稿では,PPOの故障の根本原因は値初期化バイアスと報奨信号減衰であることを示す。
これらの問題に対処するために,VC-PPO(Value-Calibrated PPO)を提案する。
VC-PPOでは、初期化バイアスに対処するために値モデルを事前訓練し、一般アドバンテージ推定(GAE)計算をアクターと批評家の間で分離し、報酬信号の減衰を軽減する。
The American Invitational Mathematics Examination (AIME) の実験は、VC-PPOがPPOのパフォーマンスを著しく向上させることを示している。
アブレーション研究により、VC-PPOの手法は長いCoTタスクに対するPPOの強化に不可欠であることが示されている。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding [104.77043794433777]
PPO(Proximal Policy Optimization)に基づいて自然言語テキストを生成する場合、推論時探索アルゴリズムは不要に思えるかもしれない
本稿では,モンテカルロ木探索 (MCTS) を統合することで,PPOから余分な距離を得ることが可能であることを実証する。
提案するPPO-MCTSは,PPOから値ネットワークを統合することで,推論時生成時のポリシネットワークと密接に連携する。
論文 参考訳(メタデータ) (2023-09-26T15:57:57Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。