論文の概要: Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs
- arxiv url: http://arxiv.org/abs/2604.10585v1
- Date: Sun, 12 Apr 2026 11:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.116679
- Title: Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs
- Title(参考訳): リワードハッキングがLLMの不確かさの定量化を破る理由
- Authors: Subramanyam Sahoo,
- Abstract要約: サイコファンの報酬信号が校正を低下させるかどうかを検討する。
3つのモデルに適用されるポストホック行列スケーリングは、ECEを40$--64%$で削減し、精度を1.5$--$$パーセンテージポイントで改善する。
これらの知見は、報酬ハッキングの校正効果を評価する方法論を確立し、校正対応訓練の目的を動機づけるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) are increasingly fine-tuned via reinforcement learning from human feedback (RLHF) or related reward optimisation schemes. While such procedures improve perceived helpfulness, we investigate whether sycophantic reward signals degrade calibration -- a property essential for reliable uncertainty quantification. We fine-tune Qwen3-8B under three regimes: no fine-tuning (base), neutral supervised fine-tuning (SFT) on TriviaQA, and sycophancy-inducing Group Relative Policy Optimisation (GRPO) that rewards agreement with planted wrong answers. Evaluating on $1{,}000$ MMLU items across five subject domains with bootstrap confidence intervals and permutation testing, we find that \textbf{sycophantic GRPO produces consistent directional calibration degradation} -- ECE rises by $+0.006$ relative to the base model and MCE increases by $+0.010$ relative to neutral SFT -- though the effect does not reach statistical significance ($p = 0.41$) at this training budget. Post-hoc matrix scaling applied to all three models reduces ECE by $40$--$64\%$ and improves accuracy by $1.5$--$3.0$ percentage points. However, the sycophantic model retains the highest post-scaling ECE relative to the neutral SFT control ($0.042$ vs.\ $0.037$), suggesting that reward-induced miscalibration leaves a structured residual even after affine correction. These findings establish a methodology for evaluating the calibration impact of reward hacking and motivate calibration-aware training objectives.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)や関連する報酬最適化スキームからの強化学習を通じて微調整される傾向にある。
このような方法により有用性が向上する一方で,不確実性定量化に必須な特性である校正の低下をシコファン信号が検討する。
我々はQwen3-8Bを細調整なし(基地なし)、中立監督型細調整(SFT)をTriviaQA上で実施し、不適切な回答に対する合意に報いる薬効誘導グループ相対政策最適化(GRPO)という3つの体制の下で微調整する。
ブートストラップの信頼区間と置換試験を含む5分野のMMLU項目を評価した結果,ECEはベースモデルに対して$+0.006$,MCEは中立SFTに対して$+0.010$,MCEは$+0.010$,このトレーニング予算では統計的に有意な値(p = 0.41$)に達しないものの,一貫した方向キャリブレーション劣化が生じることがわかった。
3つのモデルに適用されるポストホック行列スケーリングは、ECEを40$--$64\%$で削減し、精度を1.5$--$$$パーセンテージポイントで改善する。
しかし、サイコファンティックモデルは、中立的なSFTコントロール(0.042ドル対)と比較して、最も高いスケーリング後ECEを維持している。
0.037$) は、報酬による誤校正はアフィン補正後も構造的残基を残すことを示唆している。
これらの知見は、報酬ハッキングの校正効果を評価する方法論を確立し、校正対応訓練の目的を動機づけるものである。
関連論文リスト
- Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-20T19:34:53Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - Complex-Valued Unitary Representations as Classification Heads for Improved Uncertainty Quantification in Deep Neural Networks [1.932555230783329]
現代のディープニューラルネットワークは高い予測精度を達成するが、キャリブレーションは不十分である。
本稿では、バックボーンの特徴を複素値空間に投影する量子インスピレーション付き分類ヘッドアーキテクチャを提案する。
CIFAR-10のアブレーション実験により, 統一等級ヘッド(カイリーユニタリ, マグニチュード, ソフトマックスで読み出す複雑な特徴)が0.0146の予測誤差(ECE)を達成し, 標準ソフトマックスヘッドの2.4倍の改善を示した。
驚くべきことに、ソフトマックスの読み出しをヒルベルト則測定層(量子力学的に動機づけられたアプローチ)に置き換えると、キャリブレーションは0.0819に低下する。
論文 参考訳(メタデータ) (2026-02-17T00:45:27Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - OrthoGrad Improves Neural Calibration [0.0]
$perp$Gradは、過信に対処するために降下方向を制約する。
$perp$Gradは、最適化のための幾何学的な修正である。
論文 参考訳(メタデータ) (2025-06-04T22:12:46Z) - Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [3.938980910007962]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。
本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。
CMP(textitconfidence misalignment penalty)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-29T11:54:37Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。