論文の概要: FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
- arxiv url: http://arxiv.org/abs/2510.22543v1
- Date: Sun, 26 Oct 2025 05:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.532001
- Title: FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
- Title(参考訳): FAPO: 効率的で信頼性の高い推論のためのFlawed-Aware Policy Optimization
- Authors: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
欠陥陽性のロールアウトに対して,パラメータフリーの報酬ペナルティを示すFlawed-Aware Policy Optimization (FAPO)を提案する。
FAPOは広い領域で有効であり、トークン予算を増やすことなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
- 参考スコア(独自算出の注目度): 42.18368547352248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models (LLMs). In this context, models explore reasoning trajectories and exploit rollouts with correct answers as positive signals for policy optimization. However, these rollouts might involve flawed patterns such as answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are rewarded identically to fully correct ones, causing policy models to internalize these unreliable reasoning patterns. In this work, we first conduct a systematic study of flawed-positive rollouts in RL and find that they enable rapid capability gains during the early optimization stage, while constraining reasoning capability later by reinforcing unreliable patterns. Building on these insights, we propose Flawed-Aware Policy Optimization (FAPO), which presents a parameter-free reward penalty for flawed-positive rollouts, enabling the policy to leverage them as useful shortcuts in the warm-up stage, securing stable early gains, while gradually shifting optimization toward reliable reasoning in the later refinement stage. To accurately and comprehensively detect flawed-positive rollouts, we introduce a generative reward model (GenRM) with a process-level reward that precisely localizes reasoning errors. Experiments show that FAPO is effective in broad domains, improving outcome correctness, process reliability, and training stability without increasing the token budget.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
この文脈では、モデルは推論軌跡を探求し、ポリシー最適化のための正のシグナルとして正しい回答を持つロールアウトを利用する。
しかし、これらのロールアウトには、回答ガウンやジャンプイン推論のような欠陥のあるパターンが含まれる可能性がある。
このような欠陥のある正のロールアウトは、完全に正しいロールアウトと同等に報われ、ポリシーモデルがこれらの信頼できない推論パターンを内部化する。
本研究はまず,RLにおける欠陥陽性ロールアウトの系統的研究を行い,初期最適化段階における迅速な能力向上を実現するとともに,信頼性の低いパターンの強化による推論能力の抑制を図っている。
これらの知見に基づいて、欠陥のあるロールアウトに対してパラメータフリー報酬のペナルティを提示するFlawed-Aware Policy Optimization (FAPO)を提案する。
欠陥陽性のロールアウトを正確にかつ包括的に検出するために,推論エラーを正確に局所化するプロセスレベルの報酬を伴う生成報酬モデル(GenRM)を導入する。
FAPOは広い領域で有効であり、トークン予算を増大させることなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。