論文の概要: FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.19835v2
- Date: Tue, 24 Mar 2026 03:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.583011
- Title: FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
- Title(参考訳): FIPO: 将来のKLによる政策最適化との深い関係を回避
- Authors: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou,
- Abstract要約: 本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
- 参考スコア(独自算出の注目度): 84.58281577727566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.
- Abstract(参考訳): 本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
GRPOスタイルのトレーニングは効果的にスケールするが、一般的には結果に基づく報酬(ORM)に依存している。
この粗い粒度のクレジット割り当ては、重要な論理的ピボットと自明なトークンを区別できないことによって、パフォーマンスの天井を課している、と我々は主張する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
経験的に、FIPOはモデルが標準ベースラインで見られる長さの停滞を突破することを可能にする。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から1万以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた(56.0\%)。
これはDeepSeek-R1-Zero-Math-32B(約47.0%)とo1-mini(約56.0%)の両方を上回っている。
以上の結果から,高密度な有利な定式化を確立することは,ORMベースのアルゴリズムを進化させ,ベースモデルの完全な推論可能性を解き放つ上で極めて重要な方法であることが示唆された。
Verlフレームワーク上に構築されたトレーニングシステムをオープンソースとして公開しています。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization [15.965340493880701]
我々は、結果の信頼性とプロセスレベルのガイダンスを、批判のないフレームワークで組み合わせたプロセス相対政策最適化(PRPO)を導入する。
PRPOは意味的手がかりに基づいて推論シーケンスを分割し、PRMスコアをトークンレベルの利点に正規化し、それらの分布を結果の利点と整合させる。
MATH500では、PRPOはQwen2.5-Math-1.5Bの精度を61.2%から64.4%に改善した。
論文 参考訳(メタデータ) (2026-01-12T04:04:43Z) - Future Policy Aware Preference Learning for Mathematical Reasoning [15.444539171776983]
重要な課題は、好ましくないトラジェクトリと好ましくないトラジェクトリの間の大きなトークンの重複である。
本稿では,現在の政策を正規化期間における今後の政策に置き換えたFPA(Future Policy Aware)選好学習を提案する。
FPAは、SimPERで観測された最大の改善により、一貫したパフォーマンス向上を達成し、最大5.75%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-09-24T08:44:12Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning [19.25257653416883]
Key-token Advantage Estimation (KTAE)は、新たなモデルを導入することなく、きめ細かいトークンレベルの利点を推定する新しいアルゴリズムである。
GRPO+KTAEとDAPO+KTAEで訓練されたモデルは、5つの数学的推論ベンチマークにおいてベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-22T16:00:33Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。