論文の概要: A comprehensive review of classifier probability calibration metrics
- arxiv url: http://arxiv.org/abs/2504.18278v1
- Date: Fri, 25 Apr 2025 11:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.758286
- Title: A comprehensive review of classifier probability calibration metrics
- Title(参考訳): 分類器の確率校正基準に関する総合的考察
- Authors: Richard Oliver Lane,
- Abstract要約: AIとMLモデルが生成する確率や信頼度は、その真の正確さを反映しないことが多い。
確率キャリブレーション測度は、信頼性と精度の差を測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilities or confidence values produced by artificial intelligence (AI) and machine learning (ML) models often do not reflect their true accuracy, with some models being under or over confident in their predictions. For example, if a model is 80% sure of an outcome, is it correct 80% of the time? Probability calibration metrics measure the discrepancy between confidence and accuracy, providing an independent assessment of model calibration performance that complements traditional accuracy metrics. Understanding calibration is important when the outputs of multiple systems are combined, for assurance in safety or business-critical contexts, and for building user trust in models. This paper provides a comprehensive review of probability calibration metrics for classifier and object detection models, organising them according to a number of different categorisations to highlight their relationships. We identify 82 major metrics, which can be grouped into four classifier families (point-based, bin-based, kernel or curve-based, and cumulative) and an object detection family. For each metric, we provide equations where available, facilitating implementation and comparison by future researchers.
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)モデルが生み出す確率や信頼度は、その真の正確さを反映しないことが多い。
例えば、モデルが結果の80%を確実にしている場合、その80%は正しいのでしょうか?
確率キャリブレーション指標は、信頼性と精度の差を測定し、従来の精度メトリクスを補完するモデルキャリブレーション性能を独立して評価する。
キャリブレーションを理解することは、複数のシステムのアウトプットの組み合わせ、安全性の保証、ビジネスクリティカルなコンテキストの確保、モデルのユーザ信頼の構築において重要である。
本稿では,分類器およびオブジェクト検出モデルに対する確率校正基準の総合的な検討を行い,それらの関係を明らかにするために,複数の異なる分類に従ってそれらを整理する。
82のメジャーなメトリクスを識別し、4つの分類ファミリ(ポイントベース、ビンベース、カーネル、曲線ベース、累積)とオブジェクト検出ファミリに分類する。
それぞれの指標に対して、将来の研究者による実装と比較を容易にし、利用可能な方程式を提供する。
関連論文リスト
- An Entropic Metric for Measuring Calibration of Machine Learning Models [2.467408627377504]
ECDがバイナリ分類機械学習モデルにどのように適用されるかを示す。
我々の基準は過信と過信を区別する。
我々は、この新しいメトリクスが実データやシミュレーションデータでどのように機能するかを実証する。
論文 参考訳(メタデータ) (2025-02-20T13:21:18Z) - Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions [0.17265013728931003]
マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
論文 参考訳(メタデータ) (2025-01-28T13:21:34Z) - Reassessing How to Compare and Improve the Calibration of Machine Learning Models [7.183341902583164]
結果の予測確率がモデル予測に基づいてその結果の観測周波数と一致した場合、機械学習モデルを校正する。
キャリブレーションと予測の指標が追加の一般化の指標を伴わない限り、最先端のように見えるような簡単な再校正手法が存在することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:33:45Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - On the Calibration of Uncertainty Estimation in LiDAR-based Semantic
Segmentation [7.100396757261104]
本稿では,個々のクラスに対するセグメンテーションモデルの信頼性校正品質を測定する指標を提案する。
また,手書きまたは自動注釈付きデータセットの品質向上のためにラベル問題を自動的に検出する手法の二重利用を提案する。
論文 参考訳(メタデータ) (2023-08-04T10:59:24Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Calibration tests beyond classification [30.616624345970973]
ほとんどの教師付き機械学習タスクは、既約予測エラーを被る。
確率論的予測モデルは、妥当な目標に対する信念を表す確率分布を提供することによって、この制限に対処する。
校正されたモデルは、予測が過信でも過信でもないことを保証します。
論文 参考訳(メタデータ) (2022-10-21T09:49:57Z) - Calibrate: Interactive Analysis of Probabilistic Model Output [5.444048397001003]
従来の手法の欠点に耐性のある,インタラクティブな信頼性図であるCalibrateを提示する。
実世界のデータと合成データの両方のユースケースを通じて、Calibrateの実用性を実証する。
論文 参考訳(メタデータ) (2022-07-27T20:01:27Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。