論文の概要: An Entropic Metric for Measuring Calibration of Machine Learning Models
- arxiv url: http://arxiv.org/abs/2502.14545v1
- Date: Thu, 20 Feb 2025 13:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:44:17.939690
- Title: An Entropic Metric for Measuring Calibration of Machine Learning Models
- Title(参考訳): 機械学習モデルの校正測定のためのエントロピーメトリック
- Authors: Daniel James Sumler, Lee Devlin, Simon Maskell, Richard O. Lane,
- Abstract要約: ECDがバイナリ分類機械学習モデルにどのように適用されるかを示す。
我々の基準は過信と過信を区別する。
我々は、この新しいメトリクスが実データやシミュレーションデータでどのように機能するかを実証する。
- 参考スコア(独自算出の注目度): 2.467408627377504
- License:
- Abstract: Understanding the confidence with which a machine learning model classifies an input datum is an important, and perhaps under-investigated, concept. In this paper, we propose a new calibration metric, the Entropic Calibration Difference (ECD). Based on existing research in the field of state estimation, specifically target tracking (TT), we show how ECD may be applied to binary classification machine learning models. We describe the relative importance of under- and over-confidence and how they are not conflated in the TT literature. Indeed, our metric distinguishes under- from over-confidence. We consider this important given that algorithms that are under-confident are likely to be 'safer' than algorithms that are over-confident, albeit at the expense of also being over-cautious and so statistically inefficient. We demonstrate how this new metric performs on real and simulated data and compare with other metrics for machine learning model probability calibration, including the Expected Calibration Error (ECE) and its signed counterpart, the Expected Signed Calibration Error (ESCE).
- Abstract(参考訳): 機械学習モデルが入力ダタムを分類する信頼性を理解することは、重要で、おそらく未検討のコンセプトである。
本稿では,新しい校正基準であるエントロピック校正差(ECD)を提案する。
状態推定,特にターゲットトラッキング(TT)の分野での既存の研究に基づいて,二項分類機械学習モデルにECDをどのように適用するかを示す。
TT文献では,自信不足と自信過剰の相対的重要性と,それらが混ざり合っていないかについて述べる。
実際、我々の測定基準は過信と過信を区別する。
過信であるアルゴリズムは過信であり、過信であり、統計的に非効率であるにもかかわらず、過信であるアルゴリズムよりも「安全」である可能性が高いと考える。
我々は,この新たな指標が実データやシミュレーションデータ上でどのように機能するかを実証し,予測校正誤差(ECE)や署名付き校正誤差(ESCE)など,機械学習モデルの確率キャリブレーションの他の指標と比較する。
関連論文リスト
- Beyond Calibration: Assessing the Probabilistic Fit of Neural Regressors via Conditional Congruence [2.2359781747539396]
ディープネットワークは、しばしば過剰な自信と不一致な予測分布に悩まされる。
本稿では,条件付きカーネルの平均埋め込みを用いて,学習した予測分布とデータセットにおける経験的条件分布との距離を推定する,条件付きコングルーエンス誤差(CCE)について紹介する。
本研究では,1)データ生成プロセスが知られている場合の分布間の不一致を正確に定量化し,2)実世界の高次元画像回帰タスクに効果的にスケールし,3)未知のインスタンス上でのモデルの信頼性を評価することができることを示す。
論文 参考訳(メタデータ) (2024-05-20T23:30:07Z) - On the Calibration of Uncertainty Estimation in LiDAR-based Semantic
Segmentation [7.100396757261104]
本稿では,個々のクラスに対するセグメンテーションモデルの信頼性校正品質を測定する指標を提案する。
また,手書きまたは自動注釈付きデータセットの品質向上のためにラベル問題を自動的に検出する手法の二重利用を提案する。
論文 参考訳(メタデータ) (2023-08-04T10:59:24Z) - TCE: A Test-Based Approach to Measuring Calibration Error [7.06037484978289]
テストベースキャリブレーション誤差(TCE)と呼ばれる確率的二値分類器の校正誤差を測定するための新しい尺度を提案する。
TCEは,データから推定される確率とモデル予測がどの程度異なるかを調べるために,統計テストに基づく新しい損失関数を組み込んだ。
我々は,複数の実世界の不均衡データセットや ImageNet 1000 など,様々な実験を通じてTCEの特性を実証する。
論文 参考訳(メタデータ) (2023-06-25T21:12:43Z) - Variable-Based Calibration for Machine Learning Classifiers [11.9995808096481]
モデルのキャリブレーション特性を特徴付けるために,変数ベースのキャリブレーションの概念を導入する。
ほぼ完全なキャリブレーション誤差を持つモデルでは,データの特徴の関数としてかなりの誤校正が期待できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T00:49:31Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Calibrated neighborhood aware confidence measure for deep metric
learning [0.0]
深度メートル法学習は、数ショット学習、画像検索、およびオープンセット分類の問題にうまく適用されてきた。
深層学習モデルの信頼度を測定し、信頼できない予測を特定することは、まだオープンな課題です。
本稿では,その分類精度をよく反映した校正・解釈可能な信頼度尺度の定義に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-08T21:05:38Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。