論文の概要: Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration
- arxiv url: http://arxiv.org/abs/2408.02841v1
- Date: Mon, 5 Aug 2024 21:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:28:57.189415
- Title: Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration
- Title(参考訳): 後部確率の評価:決定理論、適切な装飾規則、校正
- Authors: Luciana Ferrer, Daniel Ramos,
- Abstract要約: キャリブレーション指標は, 後部品質評価には何の役割も果たさない。
予測PSRの分解から得られたキャリブレーション損失と呼ばれる簡易かつ実用的なキャリブレーション指標について論じる。
- 参考スコア(独自算出の注目度): 10.604555099281173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these system is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics -- most commonly, the expected calibration error (ECE) -- as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality. Expected PSRs should instead be used for this job, preferably normalized for ease of interpretation. In this work, we first give a brief review of PSRs from a practical perspective, motivating their definition using Bayes decision theory. We discuss why expected PSRs provide a principled measure of the quality of a system's posteriors and why calibration metrics are not the right tool for this job. We argue that calibration metrics, while not useful for performance assessment, may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss, derived from a decomposition of expected PSRs. We compare this metric with the ECE and with the expected score divergence calibration metric from the PSR literature and argue, using theoretical and empirical evidence, that calibration loss is superior to these two metrics.
- Abstract(参考訳): ほとんどの機械学習分類器は、入力サンプルが与えられたクラスに対する後続確率を出力するように設計されている。
これらの確率は、サンプルのクラスにおける分類的な決定、下流システムへの入力として提供されるか、解釈のために人間に与えられる。
これらのシステムによって生成された後部の質を評価することは、数十年前に適切なスコアリングルール(PSR)の発明で解決された重要な問題である。
残念ながら、最近の機械学習文献の多くは、後続のパフォーマンスを評価するためのプロキシとして、キャリブレーションメトリクス(一般的には、期待キャリブレーションエラー(ECE))を使用している。
このアプローチの問題点は、キャリブレーション指標が後部品質の1つの側面のみを反映し、識別性能を無視していることである。
このため, キャリブレーション指標は, 後部品質評価には何の役割も果たさないと考えられる。
期待されているPSRは、解釈の容易さのために正規化され、この仕事に使用されるべきである。
本研究はまず,ベイズ決定理論を用いてPSRの定義を動機づけた実践的な観点から,PSRの簡単なレビューを行う。
そこで本研究では,PSRがシステム後部品質の基準となる理由と,キャリブレーション指標が適当でない理由について論じる。
キャリブレーション指標は性能評価には役に立たないが,システム開発において診断ツールとして用いられる可能性がある。
この目的を念頭に、予測PSRの分解から導かれるキャリブレーション損失と呼ばれる、単純で実用的なキャリブレーションの計量について論じる。
我々は、この指標をCEと比較し、PSR文献から期待される偏差校正基準と比較し、理論的および実証的な証拠を用いて、校正損失はこれらの2つの指標より優れていると主張している。
関連論文リスト
- Optimizing Estimators of Squared Calibration Errors in Classification [2.3020018305241337]
本稿では,2乗キャリブレーション誤差の推定器の比較と最適化を可能にする平均二乗誤差に基づくリスクを提案する。
キャリブレーション誤差を推定する際のトレーニングバリデーションテストパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-09T15:58:06Z) - Orthogonal Causal Calibration [55.28164682911196]
我々は、任意の損失$ell$に対して、任意の因果パラメータのキャリブレーション誤差$theta$の一般的な上限を証明した。
我々は、因果校正のための2つのサンプル分割アルゴリズムの収束解析に境界を用いる。
論文 参考訳(メタデータ) (2024-06-04T03:35:25Z) - From Uncertainty to Precision: Enhancing Binary Classifier Performance
through Calibration [0.3495246564946556]
モデル予測スコアはイベント確率として一般的に見なされるので、キャリブレーションは正確な解釈に不可欠である。
歪み評価のための様々なキャリブレーション尺度の感度を解析し,改良された指標であるローカルスコアを導入する。
これらの知見をランダムフォレスト分類器と回帰器を用いて実世界のシナリオに適用し、キャリブレーションを同時に測定しながら信用デフォルトを予測する。
論文 参考訳(メタデータ) (2024-02-12T16:55:19Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - Analysis and Comparison of Classification Metrics [12.092755413404245]
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。
これらの測定値を用いてシステムのキャリブレーション損失を計算し、この測定値を広く使用されている予測キャリブレーション誤差(ECE)と比較する。
論文 参考訳(メタデータ) (2022-09-12T16:06:10Z) - What is Your Metric Telling You? Evaluating Classifier Calibration under
Context-Specific Definitions of Reliability [6.510061176722249]
我々は、キャリブレーション誤差を正確に測定する、より表現力のあるメトリクスを開発する必要があると論じる。
信頼性の異なる定義の下でキャリブレーション誤差を測定するために,期待誤差(ECE)の一般化を用いる。
1) 予測クラスのみに焦点をあてたECEの定義は,信頼性の実際的有用な定義の選択の下でキャリブレーション誤差を正確に測定することができず,2) 多くの一般的なキャリブレーション手法は,ECEメトリクス全体でキャリブレーション性能を均一に改善することができない。
論文 参考訳(メタデータ) (2022-05-23T16:45:02Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Estimating Expected Calibration Errors [1.52292571922932]
確率論的予測の不確実性は、モデルが人間の意思決定をサポートするために使用される場合、重要な問題である。
ほとんどのモデルは本質的に十分に校正されていないため、決定スコアは後続確率と一致しない。
我々は、$ECE$推定器の品質を定量化するための実証的な手順を構築し、それを使用して、異なる設定で実際にどの推定器を使用するべきかを決定する。
論文 参考訳(メタデータ) (2021-09-08T08:00:23Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。