論文の概要: Confidence Calibration under Ambiguous Ground Truth
- arxiv url: http://arxiv.org/abs/2603.22879v1
- Date: Tue, 24 Mar 2026 07:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.355867
- Title: Confidence Calibration under Ambiguous Ground Truth
- Title(参考訳): 曖昧な地中真理下における信頼度校正
- Authors: Linwei Tao, Haoyang Luo, Minjing Dong, Chang Xu,
- Abstract要約: 多数発声ラベルに装着したポストホックキャリブレータは、従来の評価ではよく校正される。
しかし、それらが根底にあるアノテータ分布に対してかなり誤解されている。
我々は,完全ラベル分布に対して適切なスコアリングルールを最適化する,あいまいさを意識したポストホックキャリブレータのファミリーを開発する。
- 参考スコア(独自算出の注目度): 43.71398545904091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence calibration assumes a unique ground-truth label per input, yet this assumption fails wherever annotators genuinely disagree. Post-hoc calibrators fitted on majority-voted labels, the standard single-label targets used in practice, can appear well-calibrated under conventional evaluation yet remain substantially miscalibrated against the underlying annotator distribution. We show that this failure is structural: under simplifying assumptions, Temperature Scaling is biased toward temperatures that underestimate annotator uncertainty, with true-label miscalibration increasing monotonically with annotation entropy. To address this, we develop a family of ambiguity-aware post-hoc calibrators that optimise proper scoring rules against the full label distribution and require no model retraining. Our methods span progressively weaker annotation requirements: Dirichlet-Soft leverages the full annotator distribution and achieves the best overall calibration quality across settings; Monte Carlo Temperature Scaling with a single annotation per example (MCTS S=1) matches full-distribution calibration across all benchmarks, demonstrating that pre-aggregated label distributions are unnecessary; and Label-Smooth Temperature Scaling (LS-TS) operates with voted labels alone by constructing data-driven pseudo-soft targets from the model's own confidence. Experiments on four benchmarks with real multi-annotator distributions (CIFAR-10H, ChaosNLI) and clinically-informed synthetic annotations (ISIC~2019, DermaMNIST) show that Dirichlet-Soft reduces true-label ECE by 55-87% relative to Temperature Scaling, while LS-TS reduces ECE by 9-77% without any annotator data.
- Abstract(参考訳): 信頼度キャリブレーションは入力ごとに独特な基底真実ラベルを仮定するが、この仮定はアノテータが真に一致しない場合に失敗する。
標準の単一ラベルターゲットである多数発声ラベルに装着したポストホックキャリブレータは、従来の評価ではよく校正されるが、基礎となるアノテータ分布に対して実質的に校正される。
仮定を単純化すると、温度スケーリングはアノテータの不確かさを過小評価する温度に偏り、真のラベルの誤校正はアノテーションのエントロピーとともに単調に増加する。
そこで本研究では,完全ラベル分布に対して適切なスコアリングルールを最適化し,モデルの再学習を必要としない,あいまいさを意識したポストホックキャリブレータのファミリーを開発する。
ディリクレ・ソフト(Dirichlet-Soft)は、全アノテータ分布を活用し、設定間で最高の全体的なキャリブレーション品質を達成する、モンテカルロ温度スケーリング(MCTS S=1)は、すべてのベンチマークでフルアグリゲーションキャリブレーションのキャリブレーションを一致させ、事前アグリゲーションされたラベル分布が不要であることを示す、ラベル-スムース温度スケーリング(LS-TS)は、モデル自身の信頼度からデータ駆動の擬似ソフトターゲットを構築することで、投票されたラベルでのみ動作する。
実マルチアノテータ分布(CIFAR-10H, ChaosNLI)と臨床的にインフォームドされた合成アノテーション(ISIC~2019, DermaMNIST)を持つ4つのベンチマークの実験では、Dirichlet-Softは温度スケーリングに対して真のラベルCEを55~87%削減し、LS-TSはアノテータデータなしでCEを9~77%削減した。
関連論文リスト
- DiCaP: Distribution-Calibrated Pseudo-labeling for Semi-Supervised Multi-Label Learning [83.94574004953346]
半教師付きマルチラベル学習は、ラベルのないデータを活用してモデルの性能を向上させることを目的としている。
既存の手法の多くは、その品質に関わらず、すべての擬似ラベルに等しい重みを割り当てる。
擬似ラベル重みの校正に後部精度を推定する正当性認識フレームワークDiCaPを提案する。
論文 参考訳(メタデータ) (2025-11-25T11:55:02Z) - Beyond One-Hot Labels: Semantic Mixing for Model Calibration [22.39558434131574]
textbfCalibration-aware Semantic Mixing (CSM) は、クラス特性の混合したトレーニングサンプルを生成する新しいフレームワークである。
我々はCSMが最先端のキャリブレーション手法よりも優れたキャリブレーションを実現することを示す。
論文 参考訳(メタデータ) (2025-04-18T08:26:18Z) - All Models Are Miscalibrated, But Some Less So: Comparing Calibration with Conditional Mean Operators [12.103487148356747]
条件平均演算子間の差のヒルベルト・シュミットノルムに基づくカーネル校正誤差を提案する。
実験の結果,CKCEはキャリブレーション誤差によるモデルの一貫性の高いランキングを提供し,分散シフトに対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-02-17T05:52:09Z) - Model Calibration in Dense Classification with Adaptive Label
Perturbation [44.62722402349157]
既存の密接な二分分類モデルは、過信される傾向がある。
本稿では,各トレーニング画像に対する独自のラベル摂動レベルを学習する適応ラベル摂動(ASLP)を提案する。
ASLPは、分布内および分布外の両方のデータに基づいて、密度の高い二分分類モデルの校正度を著しく改善することができる。
論文 参考訳(メタデータ) (2023-07-25T14:40:11Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。