論文の概要: ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.21005v1
- Date: Wed, 26 Nov 2025 03:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.938388
- Title: ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning
- Title(参考訳): ICPO: 効果的な強化学習のための本質的な信頼駆動型グループ相対選好最適化
- Authors: Jinpeng Wang, Chao Li, Ting Ye, Mengyuan Zhang, Wei Liu, Jian Luan,
- Abstract要約: 固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
- 参考スコア(独自算出の注目度): 17.98065634130798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) demonstrates significant potential in enhancing the reasoning capabilities of Large Language Models (LLMs). However, existing RLVR methods are often constrained by issues such as coarse-grained rewards, reward noise, and inefficient exploration, which lead to unstable training and entropy collapse. To address this challenge, we propose the Intrinsic Confidence-Driven Group Relative Preference Optimization method (ICPO). The intuition behind it lies in the fact that the probabilities of an LLM generating different responses can inherently and directly reflect its self-assessment of the reasoning process. Inspired by the idea of preference modeling, ICPO calculates a preference advantage score for each response by comparing the relative generation probabilities of multiple responses under the same input prompt, and integrates this score with verifiable rewards to guide the exploration process. We have discovered that the preference advantage score not only alleviates the issues of coarse-grained rewards and reward noise but also effectively curbs overconfident errors, enhances the relative superiority of undervalued high-quality responses, and prevents the model from overfitting to specific strategies, thereby facilitating more thorough exploration. Comprehensive experiments across four general-domain benchmarks and three mathematical benchmarks demonstrate that ICPO steadily boosts reasoning compared to GRPO.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLMs) の推論能力を高める大きな可能性を示す。
しかし、既存のRLVR法は、粗大な報酬、報酬ノイズ、非効率な探索といった問題によって制約されることが多く、不安定なトレーニングやエントロピー崩壊につながる。
この課題に対処するため,本研究では,ICPO(Intrinsic Confidence-Driven Group Relative Preference Optimization)を提案する。
その背景にある直感は、異なる反応を生成するLLMの確率が本質的に直接的に推論過程の自己評価を反映できるという事実にある。
ICPOは、嗜好モデルの概念に着想を得て、複数の応答の相対的な生成確率を同じ入力プロンプトで比較することにより、各応答に対する嗜好優位スコアを算出し、このスコアを検証可能な報酬と統合して探索プロセスを導出する。
我々は、粗大な報酬や報奨音の問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制し、過小評価された高品質な応答の相対的優位性を高め、モデルが特定の戦略に過度に適合することを防止し、より徹底的な探索を容易にすることを発見した。
4つの一般ドメインベンチマークと3つの数学的ベンチマークによる総合的な実験は、ICPOがGRPOと比較して推論を着実に向上させることを示した。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning [42.18368547352248]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
欠陥陽性のロールアウトに対して,パラメータフリーの報酬ペナルティを示すFlawed-Aware Policy Optimization (FAPO)を提案する。
FAPOは広い領域で有効であり、トークン予算を増やすことなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
論文 参考訳(メタデータ) (2025-10-26T05:49:38Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Reinforced Preference Optimization for Recommendation [28.87206911186567]
本稿では,レコメンデーションのためのReinforced Preference Optimization for Recommendation (ReRe)を提案する。
ReReは制約ビーム探索を取り入れてサンプリング効率を改善し、ハードネガを多様化する。
ReRe は従来型と LLM ベースのレコメンデータのランク付け性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-14T07:04:33Z) - RiskPO: Risk-based Policy Optimization via Verifiable Reward for LLM Post-Training [13.309653291779233]
検証可能な報酬を伴う強化学習は、大規模言語モデル(LLM)の訓練後の中心パラダイムとして浮上している。
これらの問題は、稀だが有意義な推論パスを無視しながら、高確率な出力シーケンスを過度に強調することに起因すると我々は主張する。
本稿では,古典的平均的目標を原則的リスク対策に置き換えるリスクベース政策最適化(RiskPO)を提案する。
論文 参考訳(メタデータ) (2025-10-01T13:53:09Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。