論文の概要: Stop Measuring Calibration When Humans Disagree
- arxiv url: http://arxiv.org/abs/2210.16133v1
- Date: Fri, 28 Oct 2022 14:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:05:32.901597
- Title: Stop Measuring Calibration When Humans Disagree
- Title(参考訳): 人間の診断で校正をやめる
- Authors: Joris Baan, Wilker Aziz, Barbara Plank, Raquel Fernandez
- Abstract要約: 本研究は, 理論的に不一致を考慮に入れたヒトの多数派に対する校正の基準が問題であることを示す。
人間の判断の重要な統計特性を捉えた校正の事例レベル尺度を導出する。
- 参考スコア(独自算出の注目度): 25.177984280183402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Calibration is a popular framework to evaluate whether a classifier knows
when it does not know - i.e., its predictive probabilities are a good
indication of how likely a prediction is to be correct. Correctness is commonly
estimated against the human majority class. Recently, calibration to human
majority has been measured on tasks where humans inherently disagree about
which class applies. We show that measuring calibration to human majority given
inherent disagreements is theoretically problematic, demonstrate this
empirically on the ChaosNLI dataset, and derive several instance-level measures
of calibration that capture key statistical properties of human judgements -
class frequency, ranking and entropy.
- Abstract(参考訳): キャリブレーション(キャリブレーション)は、分類器がいつそれを知らないかを知るかどうかを評価するための一般的なフレームワークである。
正当性は一般に人間の多数派に対して推定される。
近年、人間がどのクラスに当てはまるかについて本質的に意見が一致しないタスクにおいて、人間の多数派に対する校正が測定されている。
そこで本研究では,ChaosNLIデータセット上で実証的にこれを実証し,人間の判断の周波数,ランク,エントロピーの重要統計特性を捉えるためのいくつかの事例レベルのキャリブレーションを導出した。
関連論文リスト
- Truthfulness of Calibration Measures [18.21682539787221]
キャリブレーションの指標は、予測者が次の結果の条件付き期待を予測することによって期待されるペナルティを最小化した場合に真実とされる。
これにより、音の良さや完全さといった典型的な要件とともに、校正措置に欠かせないデシプラタムとなる。
本稿では, 正当性予測を一定乗算係数まで最適とする, Subsampled Smooth Error (SSCE) と呼ばれる新たなキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T02:07:55Z) - Orthogonal Causal Calibration [55.28164682911196]
我々は、任意の損失$ell$に対して、任意の因果パラメータのキャリブレーション誤差$theta$の一般的な上限を証明した。
我々は、因果校正のための2つのサンプル分割アルゴリズムの収束解析に境界を用いる。
論文 参考訳(メタデータ) (2024-06-04T03:35:25Z) - Towards Certification of Uncertainty Calibration under Adversarial Attacks [96.48317453951418]
攻撃はキャリブレーションを著しく損なう可能性を示し, 対向的摂動下でのキャリブレーションにおける最悪のキャリブレーション境界として認定キャリブレーションを提案する。
我々は,新しいキャリブレーション攻撃を提案し,テクスタディバーショナルキャリブレーショントレーニングによりモデルキャリブレーションを改善する方法を示す。
論文 参考訳(メタデータ) (2024-05-22T18:52:09Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Class-wise and reduced calibration methods [0.0]
キャリブレーションの削減により、元の問題をより単純なものに変換する方法を示す。
第2に,ニューラル崩壊という現象に基づいて,クラスワイドキャリブレーション手法を提案する。
この2つの手法を併用すると、予測とクラスごとの校正誤差を低減する強力なツールであるクラス単位での校正アルゴリズムが実現される。
論文 参考訳(メタデータ) (2022-10-07T17:13:17Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Estimating Expected Calibration Errors [1.52292571922932]
確率論的予測の不確実性は、モデルが人間の意思決定をサポートするために使用される場合、重要な問題である。
ほとんどのモデルは本質的に十分に校正されていないため、決定スコアは後続確率と一致しない。
我々は、$ECE$推定器の品質を定量化するための実証的な手順を構築し、それを使用して、異なる設定で実際にどの推定器を使用するべきかを決定する。
論文 参考訳(メタデータ) (2021-09-08T08:00:23Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。