論文の概要: What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability
- arxiv url: http://arxiv.org/abs/2205.11454v1
- Date: Mon, 23 May 2022 16:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:21:38.529185
- Title: What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability
- Title(参考訳): メトリクスは何とおっしゃいますか?
信頼性の文脈的定義に基づく分類器の校正評価
- Authors: John Kirchenbauer and Jacob Oaks and Eric Heim
- Abstract要約: 我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。
信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。
1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
- 参考スコア(独自算出の注目度): 6.510061176722249
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Classifier calibration has received recent attention from the machine
learning community due both to its practical utility in facilitating decision
making, as well as the observation that modern neural network classifiers are
poorly calibrated. Much of this focus has been towards the goal of learning
classifiers such that their output with largest magnitude (the "predicted
class") is calibrated. However, this narrow interpretation of classifier
outputs does not adequately capture the variety of practical use cases in which
classifiers can aid in decision making. In this work, we argue that more
expressive metrics must be developed that accurately measure calibration error
for the specific context in which a classifier will be deployed. To this end,
we derive a number of different metrics using a generalization of Expected
Calibration Error (ECE) that measure calibration error under different
definitions of reliability. We then provide an extensive empirical evaluation
of commonly used neural network architectures and calibration techniques with
respect to these metrics. We find that: 1) definitions of ECE that focus solely
on the predicted class fail to accurately measure calibration error under a
selection of practically useful definitions of reliability and 2) many common
calibration techniques fail to improve calibration performance uniformly across
ECE metrics derived from these diverse definitions of reliability.
- Abstract(参考訳): 分類器のキャリブレーションは、意思決定の促進に実用性があることと、現代のニューラルネットワークの分類器のキャリブレーションが不十分であることの両方から、機械学習コミュニティから注目されている。
このような焦点の多くは、最大の出力(予測クラス)が校正されるような分類器の学習の目標に向けられている。
しかし、この狭義の分類器出力の解釈は、分類器が意思決定に役立てることができる様々な実用的なユースケースを適切に捉えていない。
本研究では,分類器がデプロイされる特定のコンテキストのキャリブレーションエラーを正確に測定するために,より表現力のあるメトリクスを開発する必要がある。
この目的のために、信頼性の異なる定義の下で校正誤差を計測する期待校正誤差(ECE)の一般化を用いて、様々なメトリクスを導出する。
次に、これらの指標に関して、よく使われるニューラルネットワークアーキテクチャと校正手法の広範な実証評価を行う。
私たちはそれを見つけました
1)予測クラスのみに焦点を当てたECEの定義は、信頼性と信頼性の実用的な定義の選定において、校正誤差を正確に測定できない。
2) 多くのキャリブレーション手法は,これらの多様な信頼性定義から得られたCE指標のキャリブレーション性能を均一に向上させることができない。
関連論文リスト
- Confidence Calibration of Classifiers with Many Classes [5.018156030818883]
ニューラルネットワークに基づく分類モデルでは、最大クラス確率が信頼スコアとしてしばしば使用される。
このスコアは正しい予測を行う確率を十分に予測することは滅多になく、後処理のキャリブレーションステップを必要とする。
論文 参考訳(メタデータ) (2024-11-05T10:51:01Z) - Towards Certification of Uncertainty Calibration under Adversarial Attacks [96.48317453951418]
攻撃はキャリブレーションを著しく損なう可能性を示し, 対向的摂動下でのキャリブレーションにおける最悪のキャリブレーション境界として認定キャリブレーションを提案する。
我々は,新しいキャリブレーション攻撃を提案し,テクスタディバーショナルキャリブレーショントレーニングによりモデルキャリブレーションを改善する方法を示す。
論文 参考訳(メタデータ) (2024-05-22T18:52:09Z) - From Uncertainty to Precision: Enhancing Binary Classifier Performance
through Calibration [0.3495246564946556]
モデル予測スコアはイベント確率として一般的に見なされるので、キャリブレーションは正確な解釈に不可欠である。
歪み評価のための様々なキャリブレーション尺度の感度を解析し,改良された指標であるローカルスコアを導入する。
これらの知見をランダムフォレスト分類器と回帰器を用いて実世界のシナリオに適用し、キャリブレーションを同時に測定しながら信用デフォルトを予測する。
論文 参考訳(メタデータ) (2024-02-12T16:55:19Z) - Beyond Classification: Definition and Density-based Estimation of
Calibration in Object Detection [15.71719154574049]
我々はディープニューラルネットワーク(DNN)の校正誤差の定義と推定に挑戦する。
特に,物体検出に伴うニュアンスに対処するため,分類校正誤差の定義に適応する。
カーネル密度推定を用いた検出校正誤差の一貫した微分可能な推定器を提案する。
論文 参考訳(メタデータ) (2023-12-11T18:57:05Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Meta-Cal: Well-controlled Post-hoc Calibration by Ranking [23.253020991581963]
ポストホックキャリブレーションは、モデルを再キャリブレーションするためのテクニックであり、その目標はキャリブレーションマップを学ぶことです。
既存のアプローチは主に、キャリブレーション誤差の低いキャリブレーションマップの構築に重点を置いている。
校正誤差の低いキャリブレータは、実際には有用であるとは限らないため、制約下でのマルチクラス分類のポストホックキャリブレーションを研究します。
論文 参考訳(メタデータ) (2021-05-10T12:00:54Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。