論文の概要: Learning from the Right Rollouts: Data Attribution for PPO-based LLM Post-Training
- arxiv url: http://arxiv.org/abs/2604.01597v1
- Date: Thu, 02 Apr 2026 04:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.261419
- Title: Learning from the Right Rollouts: Data Attribution for PPO-based LLM Post-Training
- Title(参考訳): 正しいロールアウトから学ぶ:PPOベースのLLMポストトレーニングのためのデータ属性
- Authors: Dong Shu, Denghui Zhang, Jessica Hullman,
- Abstract要約: 我々は、データ属性をRL後学習ループに統合する新しいフレームワークである textbfInfluence-Guided PPO (I-PPO) を提案する。
I-PPOはSFTとPPOのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 25.736034135647554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional RL algorithms like Proximal Policy Optimization (PPO) typically train on the entire rollout buffer, operating under the assumption that all generated episodes provide a beneficial optimization signal. However, these episodes frequently contain noisy or unfaithful reasoning, which can degrade model performance and slow down training. In this paper, we propose \textbf{Influence-Guided PPO (I-PPO)}, a novel framework that integrates data attribution into the RL post-training loop. By calculating an influence score for each episode using a gradient-based approximation, I-PPO identifies and eliminates episodes that are anti-aligned with a validation gradient. Our experiments demonstrate that I-PPO consistently outperforms SFT and PPO baselines. We show that our filtering process acts as an intrinsic early stopping mechanism, accelerating training efficiency while effectively reducing unfaithful CoT reasoning.
- Abstract(参考訳): プロキシポリシー最適化(PPO)のような従来のRLアルゴリズムは、通常ロールアウトバッファ全体をトレーニングし、生成されたすべてのエピソードが有益な最適化信号を提供すると仮定して動作する。
しかし、これらのエピソードは、しばしばノイズや不誠実な推論を含んでおり、モデルのパフォーマンスを低下させ、トレーニングを遅くすることができる。
本稿では,データ属性をRL後学習ループに統合する新しいフレームワークであるtextbf{Influence-Guided PPO(I-PPO)を提案する。
勾配に基づく近似を用いて各エピソードへの影響スコアを計算することにより、I-PPOは、検証勾配に反するエピソードを特定し、排除する。
実験の結果,I-PPOはSFTとPPOのベースラインを一貫して上回っていることがわかった。
本研究は,本プロセスが本態性早期停止機構として機能し,トレーニング効率が向上し,不信なCoT推論を効果的に低減することを示した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。
不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。
我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-06-18T01:21:38Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [77.16976971950785]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOは絶対的なアドバンテージを低く保ち、勾配計算や更新に必要な数を大幅に削減する。
実験の結果、CPPOはGSM8Kで最大7.98タイム、Mathで3.48タイムで最大7.48タイム、オリジナルのGRPOと比較して精度を保っている。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret [3.410112345043215]
これらの問題に対処するために,VC-PPO(Value-Calibrated PPO)を提案する。
The American Invitational Mathematics Examination (AIME) の実験は、VC-PPOがPPOのパフォーマンスを著しく向上させることを示している。
論文 参考訳(メタデータ) (2025-03-03T12:59:25Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。