論文の概要: CaliDist: Calibrating Large Language Models via Behavioral Robustness to Distraction
- arxiv url: http://arxiv.org/abs/2606.05799v1
- Date: Thu, 04 Jun 2026 07:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.622486
- Title: CaliDist: Calibrating Large Language Models via Behavioral Robustness to Distraction
- Title(参考訳): CaliDist: 行動ロバスト性による大規模言語モデルのキャリブレーション
- Authors: Mohammad Anas Jawad, Cornelia Caragea,
- Abstract要約: 既存のLLM(Large Language Models)のキャリブレーション手法は、しばしば信頼性の重要な次元、すなわちモデルの振舞いの堅牢性を見落としている。
我々は,モデルが注意をそらす可能性を直接測定し,罰する,新しいポストホックキャリブレーション手法であるtextscCaliDistを紹介した。
textscCaliDistは、強いベースラインと比較して、期待の低いエラー(ECE)とBrier Scoreを一貫して達成します。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing calibration methods for Large Language Models (LLMs) often overlook a critical dimension of trustworthiness: a model's {\em behavioral robustness} to irrelevant or misleading information. In this paper, we argue that a model's true confidence should reflect its stability under cognitive pressure. We introduce \textsc{CaliDist}, a novel post-hoc calibration approach that directly measures and penalizes a model's susceptibility to distraction. \textsc{CaliDist} quantifies how an LLM's predictions and uncertainty change when its input prompt is perturbed with semantic \textit{distractors}. This stability (or lack thereof) signal is then used to adaptively scale the model's initial confidence score. Our extensive experiments on seven Natural Language Understanding classification benchmarks using six distinct LLMs show that \textsc{CaliDist} consistently achieves lower Expected Calibration Error (ECE) and Brier Score compared with strong baselines. Remarkably, our method reduces the ECE from 23\% to 7\% on average--a relative improvement of 70\%--demonstrating that behavioral stability is a powerful signal for calibration. We make our code and datasets available at github.com/m-anas-j/CaliDist.
- Abstract(参考訳): 既存のLLM(Large Language Models)のキャリブレーション手法は、しばしば信頼性の重要な次元、すなわち無関係または誤解を招く情報に対するモデルの振る舞いの堅牢性を見落としている。
本稿では,モデルの真の信頼度は,認知的圧力下での安定性を反映すべきである,と論じる。
我々は,モデルが注意をそらす可能性を直接測定し,罰する,新しいポストホックキャリブレーション手法である「textsc{CaliDist}」を紹介した。
\textsc{CaliDist} は、入力プロンプトが意味的な \textit{distractors} で摂動されると、LCM の予測と不確実性がどのように変化するかを定量化する。
この安定性(またはその欠如)信号は、モデルの初期信頼スコアを適応的にスケールするために使用される。
6つの異なる LLM を用いた7つの自然言語理解分類ベンチマークに関する広範囲な実験により, 期待される校正誤差 (ECE) とBrier Score は, 強い基準値と比較して常に低い値が得られることが示された。
ここでは, 動作安定性がキャリブレーションの強力な信号であることを示すため, ECE を平均で 23 % から 7 % に削減する。
コードとデータセットはgithub.com/m-anas-j/CaliDistで公開しています。
関連論文リスト
- Calibration vs Decision Making: Revisiting the Reliability Paradox in Unlearned Language Models [15.63775421273161]
本研究では,TOFUベンチマークを用いた複数選択質問応答評価プロトコルを用いて,生成言語モデルのギャップについて検討する。
微調整モデルでは,事前学習モデルと比較してキャリブレーション誤差が低い(ECE 0.04)。
未学習後のモデルも同様に低いキャリブレーションを保ちながら、忘れ分割の精度は低下する。
論文 参考訳(メタデータ) (2026-05-20T08:59:23Z) - Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Confidence Calibration for Intent Detection via Hyperspherical Space and
Rebalanced Accuracy-Uncertainty Loss [17.26964140836123]
一部のシナリオでは、ユーザは正確さだけでなく、モデルの信頼性も気にします。
本稿では,超球面空間と精度・不確かさ損失の再バランスを用いたモデルを提案する。
本モデルでは,既存の校正手法より優れ,校正基準の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-17T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。