論文の概要: C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning
- arxiv url: http://arxiv.org/abs/2509.23129v1
- Date: Sat, 27 Sep 2025 05:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.058408
- Title: C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning
- Title(参考訳): C$^2$GSPG: 自信に配慮したグループシーケンスポリシー
- Authors: Haotian Liu, Shuo Wang, Hongteng Xu,
- Abstract要約: 推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
- 参考スコア(独自算出の注目度): 54.705168477975384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) methods, exemplified by Group Relative Policy Optimization (GRPO) and its variants, play a central role in developing reasoning models. However, these methods often suffer from a critical overconfidence issue, which prevents them from achieving self-aware reasoning models. In this study, we propose a simple yet effective confidence-calibration group sequence policy gradient method, called C$^2$GSPG, which simultaneously enhances reasoning performance while suppressing overconfidence. In principle, we propose a Group Sequence Policy Gradient (GSPG) framework for learning reasoning models, which eliminates the token-level bias commonly appearing in GRPO and its variants. In this framework, we define the model confidence for each reasoning problem using the normalized sequence-level probability, and then apply a cross-entropy regularizer to calibrate the model confidence to the sequence's reward. We demonstrate that the confidence calibration regularizer and GSPG are collaborative for binary rewards, as their objectives always share the same gradient direction. For non-binary rewards, we apply nonlinear reward normalization and adaptive regularizer clipping, mitigating the potential conflict between the two objectives. Applying C$^2$GSPG to post-train large language models in logical and mathematical reasoning tasks, we show its superiority over state-of-the-art methods in both reasoning accuracy and confidence calibration. The code of C$^2$GSPG is available at https://github.com/HaotianLiu123/CCGSPG.
- Abstract(参考訳): グループ相対政策最適化(GRPO)とその変種によって実証された強化学習(RL)法は、推論モデルの開発において中心的な役割を果たす。
しかし、これらの手法は、しばしば重大な過信の問題に悩まされるため、自己認識推論モデルを達成することができない。
そこで本研究では,C$^2$GSPGと呼ばれるシンプルな信頼性校正グループシーケンスポリシー勾配法を提案し,信頼度を抑えながら推論性能を向上する。
原則として,GRPOとその変種に共通するトークンレベルのバイアスを排除し,推論モデルを学習するためのグループシーケンスポリシーグラディエント(GSPG)フレームワークを提案する。
本稿では、正規化シーケンスレベルの確率を用いて、各推論問題に対するモデル信頼度を定義し、次に、クロスエントロピー正規化器を適用して、モデルの信頼度をシーケンスの報酬に調整する。
信頼性キャリブレーション・レギュレータとGSPGは、常に同じ勾配方向を共有するため、二分報酬に対して協調的であることを示す。
非バイナリ報酬に対しては、非線形報酬正規化と適応正則化クリッピングを適用し、この2つの目的間の潜在的な衝突を緩和する。
C$^2$GSPGを論理的および数学的推論タスクにおける大規模言語モデルの訓練後モデルに適用することにより、推論精度と信頼性校正の両面で最先端の手法よりも優れていることを示す。
C$^2$GSPGのコードはhttps://github.com/HaotianLiu123/CCGSPGで入手できる。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - What is the Alignment Objective of GRPO? [30.36318490634376]
本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。
選好アグリゲーションの正確な形は、報酬選好モデルの定義方法とペナルティ関数から生じる。
二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。
論文 参考訳(メタデータ) (2025-02-25T15:56:56Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。