論文の概要: Calibration-Aware Policy Optimization for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2604.12632v1
- Date: Tue, 14 Apr 2026 12:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.424628
- Title: Calibration-Aware Policy Optimization for Reasoning LLMs
- Title(参考訳): LLMのキャリブレーションを考慮したポリシー最適化
- Authors: Ziqi Wang, Xingzhou Lou, Meiqi Wu, Zhengqi Wen, Junge Zhang,
- Abstract要約: グループ相対政策最適化(GRPO)は、推論を強化するが、しばしば過信を誘発し、誤った応答が正しい応答よりも低いパープレキシティをもたらし、AUC(Area Under the Curve)で説明されているような相対的な校正を低下させる。
GRPO型アルゴリズムのこの劣化は不確実性に依存しない優位性推定に起因し、必然的にキャリブレーションによる最適化を誤っていることを最初に証明する。
次に,ロジスティックなAUCサロゲート損失を理論的に一貫し,不確実性を考慮した優位性推定を可能にするグラジスティクス・アウェア・ポリシー最適化(CAPO)を提案する。
- 参考スコア(独自算出の注目度): 27.83665401246145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) enhances LLM reasoning but often induces overconfidence, where incorrect responses yield lower perplexity than correct ones, degrading relative calibration as described by the Area Under the Curve (AUC). Existing approaches either yield limited improvements in calibration or sacrifice gains in reasoning accuracy. We first prove that this degradation in GRPO-style algorithms stems from their uncertainty-agnostic advantage estimation, which inevitably misaligns optimization gradients with calibration. This leads to improved accuracy at the expense of degraded calibration. We then propose Calibration-Aware Policy Optimization (CAPO). It adopts a logistic AUC surrogate loss that is theoretically consistent and admits regret bound, enabling uncertainty-aware advantage estimation. By further incorporating a noise masking mechanism, CAPO achieves stable learning dynamics that jointly optimize calibration and accuracy. Experiments on multiple mathematical reasoning benchmarks show that CAPO-1.5B significantly improves calibration by up to 15% while achieving accuracy comparable to or better than GRPO, and further boosts accuracy on downstream inference-time scaling tasks by up to 5%. Moreover, when allowed to abstain under low-confidence conditions, CAPO achieves a Pareto-optimal precision-coverage trade-off, highlighting its practical value for hallucination mitigation.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、LLM推論を強化するが、しばしば過信を引き起こす。
既存のアプローチでは、キャリブレーションや犠牲ゲインの精度が制限されている。
GRPO型アルゴリズムのこの劣化は不確実性に依存しない優位性推定に起因し、必然的にキャリブレーションによる最適化勾配を誤る。
これにより、劣化キャリブレーションを犠牲にして精度が向上する。
次に,キャリブレーション・アウェア・ポリシー最適化(CAPO)を提案する。
これはロジスティックなAUCサロゲート損失を採用しており、理論的に一貫性があり、後悔の限界を認め、不確実性を認識した利点推定を可能にする。
ノイズマスキング機構を更に取り入れることで、CAPOは校正と精度を共同で最適化する安定した学習力学を実現する。
複数の数学的推論ベンチマークの実験により、CAPO-1.5BはGRPOに匹敵する精度を達成しつつ、キャリブレーションを最大15%改善し、下流の推論時間スケーリングタスクの精度を最大5%向上することが示された。
さらに、低信頼条件下での排除を許すと、CAPOはパレート・最適精度被覆トレードオフを達成し、幻覚緩和の実用的価値を強調している。
関連論文リスト
- Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards [71.19033708090389]
Reinforcement Learning from Verifiable Rewards (RLVR) は、大きな言語モデル(LLM)推論を著しく強化するが、校正劣化に苦しむ。
推論と校正の目的を体系的に分離するフレームワークであるDCPOを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:47:59Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Calibration Strategies for Robust Causal Estimation: Theoretical and Empirical Insights on Propensity Score-Based Estimators [0.6562256987706128]
推定と校正のためのデータの分割は、確率スコアに基づく推定器の性能に重大な影響を及ぼす。
提案手法は,確率スコア推定のためのキャリブレーション手法の最近の進歩を延長し,挑戦的な設定における確率スコアの堅牢性を向上させる。
論文 参考訳(メタデータ) (2025-03-21T16:41:10Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - Transferable Calibration with Lower Bias and Variance in Domain
Adaptation [139.4332115349543]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインへの学習マシンの転送を可能にする。
DAモデルの予測的不確実性を推定する方法は、安全クリティカルなシナリオにおける意思決定に不可欠である。
TransCalは既存のDAメソッドの校正に簡単に適用できる。
論文 参考訳(メタデータ) (2020-07-16T11:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。