論文の概要: CATTO: Balancing Preferences and Confidence in Language Models
- arxiv url: http://arxiv.org/abs/2601.23096v1
- Date: Fri, 30 Jan 2026 15:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.537182
- Title: CATTO: Balancing Preferences and Confidence in Language Models
- Title(参考訳): CATTO: 言語モデルにおける優先度と信頼のバランス
- Authors: Nisarg Parikh, Kunjal Panchal, Ananya Sai, Pannaga Shivaswamy, Andrew Lan,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば正確な次のトークン予測を行うが、これらの予測に対する信頼度は不十分である。
本稿では,予測信頼度と経験的予測正しさを一致させる予測キャリブレーションを意識した目標を提案する。
出力トークンのベイズ最適選択に校正トークン確率を活用するテスト時間スケーリング機構であるConfidence@kを導入する。
- 参考スコア(独自算出の注目度): 4.678970068275123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) often make accurate next token predictions but their confidence in these predictions can be poorly calibrated: high-confidence predictions are frequently wrong, and low-confidence predictions may be correct. This miscalibration is exacerbated by preference-based alignment methods breaking the link between predictive probability and correctness. We introduce a Calibration Aware Token-level Training Objective (CATTO), a calibration-aware objective that aligns predicted confidence with empirical prediction correctness, which can be combined with the original preference optimization objectives. Empirically, CATTO reduces Expected Calibration Error (ECE) by 2.22%-7.61% in-distribution and 1.46%-10.44% out-of-distribution compared to direct preference optimization (DPO), and by 0.22%-1.24% in-distribution and 1.23%-5.07% out-of-distribution compared to the strongest DPO baseline. This improvement in confidence does not come at a cost of losing task accuracy, where CATTO maintains or slightly improves multiple-choice question-answering accuracy on five datasets. We also introduce Confidence@k, a test-time scaling mechanism leveraging calibrated token probabilities for Bayes-optimal selection of output tokens.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば正確な次のトークン予測を行うが、これらの予測に対する信頼度は、しばしば誤りであり、低信頼予測は正しいかもしれない。
この誤判定は、予測確率と正しさのリンクを断ち切る嗜好に基づくアライメント手法によって悪化する。
CATTO(Calibration Aware Token-level Training Objective)は、予測信頼度と経験的予測正しさを一致させるキャリブレーションを意識した訓練対象であり、元の選好最適化目標と組み合わせることができる。
実証的に、CATTOは期待校正誤差(ECE)を2.22%-7.61%、直接選好最適化(DPO)と比較して1.46%-10.44%、配当率0.22%-1.24%、配当率1.23%-5.07%で減らした。
この信頼性の向上はタスクの正確さを失うコストを伴わず、CATTOは5つのデータセットで複数の質問回答の正確性を維持またはわずかに改善する。
出力トークンのベイズ最適選択に校正トークン確率を活用するテスト時間スケーリング機構であるConfidence@kを導入する。
関連論文リスト
- Uncertainty-Aware Post-Hoc Calibration: Mitigating Confidently Incorrect Predictions Beyond Calibration Metrics [6.9681910774977815]
本稿では、校正品質と不確実性を考慮した意思決定を向上させるためのポストホック校正フレームワークを提案する。
校正基準,不確実性認識性能測定,実証的コンフォメーションカバレッジを用いて総合評価を行った。
実験により,提案手法はイソトニックおよび焦点損失ベースラインと比較して,信頼性の低い予測精度と競合予測誤差を実現することが示された。
論文 参考訳(メタデータ) (2025-10-19T23:55:36Z) - On the calibration of Just-in-time Defect Prediction [0.0]
我々は,3つのJIT DP手法の校正評価を行い,校正が不十分であるかどうかを判断した。
その結果、評価されたJIT DPモデルはすべてある程度の誤校正を示し、ECEは2~35%であった。
論文 参考訳(メタデータ) (2025-04-16T13:06:20Z) - Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Does confidence calibration improve conformal prediction? [10.340903334800787]
適応型共形予測において、電流信頼度校正法がより大きな予測セットをもたらすことを示す。
温度値の役割を調べることにより,高信頼度予測が適応型等角予測の効率を高めることが確認された。
本稿では,予測セットの効率を向上させるために,新しい損失関数を備えた温度スケーリングの変種である Conformal Temperature Scaling (ConfTS) を提案する。
論文 参考訳(メタデータ) (2024-02-06T19:27:48Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文 参考訳(メタデータ) (2022-08-25T13:31:09Z) - Discriminative Jackknife: Quantifying Uncertainty in Deep Learning via
Higher-Order Influence Functions [121.10450359856242]
我々は、モデル損失関数の影響関数を利用して、予測信頼区間のジャックニフェ(または、アウト・ワン・アウト)推定器を構築する頻繁な手順を開発する。
1)および(2)を満たすDJは、幅広いディープラーニングモデルに適用可能であり、実装が容易であり、モデルトレーニングに干渉したり、精度を妥協したりすることなく、ポストホックな方法で適用することができる。
論文 参考訳(メタデータ) (2020-06-29T13:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。