論文の概要: Mitigating Bias in Calibration Error Estimation
- arxiv url: http://arxiv.org/abs/2012.08668v2
- Date: Wed, 24 Feb 2021 19:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:41:36.368339
- Title: Mitigating Bias in Calibration Error Estimation
- Title(参考訳): 校正誤差推定におけるバイアス軽減
- Authors: Rebecca Roelofs, Nicholas Cain, Jonathon Shlens, Michael C. Mozer
- Abstract要約: 本研究では,ECE_binが真の校正誤差を体系的に過小評価または過大評価できることを示すシミュレーションフレームワークを提案する。
ECE_sweep は、ビンの数をできるだけ多く選択する簡単な代替校正誤差メトリックを提案します。
- 参考スコア(独自算出の注目度): 28.46667300490605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building reliable machine learning systems requires that we correctly
understand their level of confidence. Calibration measures the degree of
accuracy in a model's confidence and most research in calibration focuses on
techniques to improve an empirical estimate of calibration error, ECE_bin. We
introduce a simulation framework that allows us to empirically show that
ECE_bin can systematically underestimate or overestimate the true calibration
error depending on the nature of model miscalibration, the size of the
evaluation data set, and the number of bins. Critically, we find that ECE_bin
is more strongly biased for perfectly calibrated models. We propose a simple
alternative calibration error metric, ECE_sweep, in which the number of bins is
chosen to be as large as possible while preserving monotonicity in the
calibration function. Evaluating our measure on distributions fit to neural
network confidence scores on CIFAR-10, CIFAR-100, and ImageNet, we show that
ECE_sweep produces a less biased estimator of calibration error and therefore
should be used by any researcher wishing to evaluate the calibration of models
trained on similar datasets.
- Abstract(参考訳): 信頼できる機械学習システムを構築するには、信頼性のレベルを正確に理解する必要がある。
キャリブレーションはモデルの信頼性の精度を計測し、キャリブレーションのほとんどの研究はキャリブレーション誤差の試算値であるECE_binを改善する技術に焦点を当てている。
本研究では,モデル誤校正の性質,評価データセットのサイズ,ビン数に応じて,ECE_binが真の校正誤差を体系的に過大評価または過大評価できることを示すシミュレーションフレームワークを提案する。
批判的に言えば、ECE_binは完全な校正モデルに対して強いバイアスを受けている。
本稿では,キャリブレーション関数のモノトニック性を維持しつつ,ビン数を可能な限り大きく選択した簡易なキャリブレーション誤差指標ece_sweepを提案する。
CIFAR-10, CIFAR-100, ImageNetのニューラルネットワーク信頼性スコアに適合する分布の測定値を評価すると, ECE_sweepはキャリブレーション誤差のバイアスの少ない推定器を生成し, 類似したデータセットでトレーニングされたモデルのキャリブレーションを評価したい研究者なら誰でも利用すべきである。
関連論文リスト
- Consistency Calibration: Improving Uncertainty Calibration via Consistency among Perturbed Neighbors [22.39558434131574]
モデルキャリブレーションの代替視点として一貫性の概念を導入する。
本稿では,入力間の一貫性に基づいて信頼度を調整する,一貫性(CC)と呼ばれるポストホックキャリブレーション手法を提案する。
また,ロジットレベルでの摂動は計算効率を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-10-16T06:55:02Z) - Optimizing Estimators of Squared Calibration Errors in Classification [2.3020018305241337]
本稿では,2乗キャリブレーション誤差の推定器の比較と最適化を可能にする平均二乗誤差に基づくリスクを提案する。
キャリブレーション誤差を推定する際のトレーニングバリデーションテストパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-09T15:58:06Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - TCE: A Test-Based Approach to Measuring Calibration Error [7.06037484978289]
テストベースキャリブレーション誤差(TCE)と呼ばれる確率的二値分類器の校正誤差を測定するための新しい尺度を提案する。
TCEは,データから推定される確率とモデル予測がどの程度異なるかを調べるために,統計テストに基づく新しい損失関数を組み込んだ。
我々は,複数の実世界の不均衡データセットや ImageNet 1000 など,様々な実験を通じてTCEの特性を実証する。
論文 参考訳(メタデータ) (2023-06-25T21:12:43Z) - Calibration Error Estimation Using Fuzzy Binning [0.0]
ファジィビンニング手法を用いてキャリブレーション誤差を算出するファジィ誤差計量(FCE)を提案する。
以上の結果から,FCEは特にマルチクラス設定において,キャリブレーション誤差の予測に優れることがわかった。
論文 参考訳(メタデータ) (2023-04-30T18:06:14Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - Enabling Calibration In The Zero-Shot Inference of Large Vision-Language
Models [58.720142291102135]
プロンプト、データセット、アーキテクチャといった関連する変数のキャリブレーションを測定し、CLIPによるゼロショット推論が誤校正されていることを見つけます。
学習した1つの温度は、推論データセットにまたがって特定のCLIPモデルごとに一般化され、選択が促される。
論文 参考訳(メタデータ) (2023-03-11T17:14:04Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Revisiting Calibration for Question Answering [16.54743762235555]
従来のキャリブレーション評価はモデル信頼性の有用性を反映していないと論じる。
モデルが誤った予測に低信頼を割り当て、正しい予測に高信頼を割り当てているかどうかをよりよく把握する新しい校正基準であるMacroCEを提案する。
論文 参考訳(メタデータ) (2022-05-25T05:49:56Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。