論文の概要: How Flawed is ECE? An Analysis via Logit Smoothing
- arxiv url: http://arxiv.org/abs/2402.10046v1
- Date: Thu, 15 Feb 2024 16:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:59:28.826864
- Title: How Flawed is ECE? An Analysis via Logit Smoothing
- Title(参考訳): ECEはどんな欠陥があるのか?
Logit Smoothingによる解析
- Authors: Muthu Chidambaram, Holden Lee, Colin McSwiggen, Semon Rezchikov
- Abstract要約: キャリブレーション測定の最も一般的な方法は、期待キャリブレーション誤差(ECE)である。
近年の研究では、予測器の空間において不連続であるという事実など、ECEの欠点が指摘されている。
我々はこれらの不連続性の性質を用いて、ロジット・スムースドECE(LS-ECE)と呼ばれる新しい連続的、容易に推定される誤校正指標を動機づける。
- 参考スコア(独自算出の注目度): 7.480124826347166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informally, a model is calibrated if its predictions are correct with a
probability that matches the confidence of the prediction. By far the most
common method in the literature for measuring calibration is the expected
calibration error (ECE). Recent work, however, has pointed out drawbacks of
ECE, such as the fact that it is discontinuous in the space of predictors. In
this work, we ask: how fundamental are these issues, and what are their impacts
on existing results? Towards this end, we completely characterize the
discontinuities of ECE with respect to general probability measures on Polish
spaces. We then use the nature of these discontinuities to motivate a novel
continuous, easily estimated miscalibration metric, which we term
Logit-Smoothed ECE (LS-ECE). By comparing the ECE and LS-ECE of pre-trained
image classification models, we show in initial experiments that binned ECE
closely tracks LS-ECE, indicating that the theoretical pathologies of ECE may
be avoidable in practice.
- Abstract(参考訳): 形式的には、モデルがその予測が正しければ、予測の信頼性に一致する確率で校正される。
キャリブレーション測定の文献で最も一般的な方法は、期待キャリブレーション誤差(ECE)である。
しかし、最近の研究は、予測器の空間において不連続であるという事実など、ECEの欠点を指摘した。
この作業では、これらの問題はどの程度根本的であり、既存の結果にどのような影響があるのか?
この目的に向けて、ポーランド空間上の一般的な確率測度に関して、ECEの不連続性を完全に特徴づける。
次に、これらの不連続性の性質を用いて、ロジット・スムースドECE(LS-ECE)と呼ばれる、新しい連続的、容易に推定される誤校正指標を動機付ける。
予め訓練した画像分類モデルのECEとLS-ECEを比較することで、ECEを結合したECEがLS-ECEを密に追跡する実験を行い、ECEの理論的病理が実際に回避可能であることを示す。
関連論文リスト
- Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Full-ECE: A Metric For Token-level Calibration on Large Language Models [24.684907524923936]
大きな言語モデル(LLM)は強力なツールとして登場し、言語タスクにおける例外的なパフォーマンスを示している。
expected Error (ECE) やclasswise-ECE (cw-ECE) のような従来の校正基準は、その複雑さのためにLLMには不十分である。
フルキャリブレーションと呼ばれる新しいキャリブレーションの概念を提案し,それに対応する計量であるFull-ECEを導入する。
論文 参考訳(メタデータ) (2024-06-17T09:07:58Z) - Beyond Calibration: Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.2359781747539396]
ディープネットワークは、しばしば過剰な自信と不一致な予測分布に悩まされる。
本稿では,条件付きカーネルの平均埋め込みを用いて,学習した予測分布とデータセットにおける経験的条件分布との距離を推定する,条件付きコングルーエンス誤差(CCE)について紹介する。
本研究では,1)データ生成プロセスが知られている場合の分布間の不一致を正確に定量化し,2)実世界の高次元画像回帰タスクに効果的にスケールし,3)未知のインスタンス上でのモデルの信頼性を評価することができることを示す。
論文 参考訳(メタデータ) (2024-05-20T23:30:07Z) - Has the Deep Neural Network learned the Stochastic Process? A Wildfire Perspective [17.897121328003617]
本稿では,Deep Neural Network (DNN) の回避に関する最初の体系的研究について述べる。
従来の評価手法は、観測された地上真実(GT)を再現するDNNの能力を評価する。
本稿では,プロセスのGTを表すStatistic-GTと,Statistic-GTに忠実さを専ら評価する評価指標を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:54:20Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with
Differentiable Expected Calibration Error [50.86671887712424]
ドメイン適応型セマンティックセグメンテーションの流行は、ソースドメインデータの漏洩に関する懸念を引き起こしている。
ソースデータの要求を回避するため、ソースフリーなドメイン適応が実現可能なソリューションとして登場した。
校正誘導型ソースフリーなドメイン適応型セマンティックセマンティックセマンティクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:28:34Z) - Calibrated Explanations: with Uncertainty Information and
Counterfactuals [0.1843404256219181]
Calibrated Explanations (CE)はVenn-Abersの基礎の上に構築されている。
これは特徴量とモデルの確率推定の両方に対して不確実な定量化を提供する。
25のベンチマークデータセットによる評価の結果は,CEの有効性を裏付けるものだった。
論文 参考訳(メタデータ) (2023-05-03T17:52:41Z) - Excess risk analysis for epistemic uncertainty with application to
variational inference [110.4676591819618]
我々は、未知の分布からデータが生成される頻繁なセッティングにおいて、新しいEU分析を提示する。
一般化能力と、予測分布の分散やエントロピーなど、広く使用されているEUの測定値との関係を示す。
本研究では,PAC-ベイジアン理論に基づく予測とEU評価性能を直接制御する新しい変分推論を提案する。
論文 参考訳(メタデータ) (2022-06-02T12:12:24Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。