論文の概要: Discovery of Hidden Miscalibration Regimes
- arxiv url: http://arxiv.org/abs/2605.13484v1
- Date: Wed, 13 May 2026 13:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.060989
- Title: Discovery of Hidden Miscalibration Regimes
- Title(参考訳): 隠れた校正規則の発見
- Authors: Katarzyna Kobalczyk, Mihaela van der Schaar,
- Abstract要約: モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
- 参考スコア(独自算出の注目度): 52.452902154360565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibration is commonly evaluated by comparing model confidence with its empirical correctness, implicitly treating reliability as a function of the confidence score alone. However, this view can hide substantial structure: models may be systematically overconfident on some kinds of inputs and underconfident on others, causing global reliability diagnostics to obscure localised calibration failures. To address this, we formulate the problem of discovering hidden miscalibration regimes without assuming access to predefined data slices. We define the corresponding miscalibration field and propose a diagnostic framework for estimating it. Our approach learns a calibration-aware representation of the input space and estimates signed local miscalibration by kernel smoothing in the learned geometry. Across four real-world LLM benchmarks and twelve LLMs, we find that input-dependent calibration heterogeneity is prevalent. We further show that the discovered fields are actionable: they support local confidence correction and reduce calibration error in systematically miscalibrated regions where confidence-based methods such as isotonic regression and temperature scaling are less effective.
- Abstract(参考訳): キャリブレーションは、モデル信頼度とその経験的正しさを比較し、信頼性を信頼スコアのみの関数として暗黙的に扱うことで、一般的に評価される。
モデルは何らかの入力を体系的に過信し、他の入力を過信し、グローバルな信頼性診断が局所的なキャリブレーション障害を曖昧にする可能性がある。
これを解決するために、事前に定義されたデータスライスへのアクセスを仮定することなく、隠れた誤校正規則を発見する問題を定式化する。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
4つの実世界のLLMベンチマークと12のLLMベンチマークで、入力依存キャリブレーションの不均一性が顕著であることがわかった。
さらに, 等調回帰法や温度スケーリング法のような信頼度に基づく手法では, 局所的な信頼度補正と校正誤差の低減が有効であることを示す。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Enhance GNNs with Reliable Confidence Estimation via Adversarial Calibration Learning [30.450482094196243]
優れた予測性能にもかかわらず、GNNは信頼度が低いことがしばしばある。
この問題は、不正検出やリスクアセスメントといった高リスク領域における信頼性に関する懸念を提起する。
本稿では,異なるノード群間のキャリブレーションを適応的に強化する新しいAdvCaliフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T23:04:41Z) - Calibrating Deep Neural Network using Euclidean Distance [5.3612053942581275]
機械学習では、Focal Lossは、サンプルの分類が難しいことを強調することで、誤分類率を減らすために一般的に使用される。
高校正誤差は予測確率と実際の結果との相違を示し、モデルの信頼性に影響を及ぼす。
本研究では,FCL (Focal Loss) と呼ばれる新しい損失関数を導入する。
論文 参考訳(メタデータ) (2024-10-23T23:06:50Z) - Consistency Calibration: Improving Uncertainty Calibration via Consistency among Perturbed Neighbors [22.39558434131574]
モデルキャリブレーションの代替視点として一貫性の概念を導入する。
本稿では,入力間の一貫性に基づいて信頼度を調整する,一貫性(CC)と呼ばれるポストホックキャリブレーション手法を提案する。
また,ロジットレベルでの摂動は計算効率を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-10-16T06:55:02Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。