論文の概要: Trust, or Don't Predict: Introducing the CWSA Family for Confidence-Aware Model Evaluation
- arxiv url: http://arxiv.org/abs/2505.18622v1
- Date: Sat, 24 May 2025 10:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.550229
- Title: Trust, or Don't Predict: Introducing the CWSA Family for Confidence-Aware Model Evaluation
- Title(参考訳): 信頼、あるいは予測しない:信頼を意識したモデル評価のためのCWSAファミリーの導入
- Authors: Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, Mohammadali Keshtparvar, Pegah Ghaffari,
- Abstract要約: 信頼性重み付き選択精度(CWSA)と正規化変種CWSA+を紹介する。
CWSAは、信頼しきい値の下で予測モデルを評価するための原則的で解釈可能な方法を提供する。
CWSAとCWSA+は、信頼度の高いテストにおいて、ニュアンスド障害モードを効果的に検出し、古典的な指標より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent machine learning systems, confidence scores are being utilized more and more to manage selective prediction, whereby a model can abstain from making a prediction when it is unconfident. Yet, conventional metrics like accuracy, expected calibration error (ECE), and area under the risk-coverage curve (AURC) do not capture the actual reliability of predictions. These metrics either disregard confidence entirely, dilute valuable localized information through averaging, or neglect to suitably penalize overconfident misclassifications, which can be particularly detrimental in real-world systems. We introduce two new metrics Confidence-Weighted Selective Accuracy (CWSA) and its normalized variant CWSA+ that offer a principled and interpretable way to evaluate predictive models under confidence thresholds. Unlike existing methods, our metrics explicitly reward confident accuracy and penalize overconfident mistakes. They are threshold-local, decomposable, and usable in both evaluation and deployment settings where trust and risk must be quantified. Through exhaustive experiments on both real-world data sets (MNIST, CIFAR-10) and artificial model variants (calibrated, overconfident, underconfident, random, perfect), we show that CWSA and CWSA+ both effectively detect nuanced failure modes and outperform classical metrics in trust-sensitive tests. Our results confirm that CWSA is a sound basis for developing and assessing selective prediction systems for safety-critical domains.
- Abstract(参考訳): 近年の機械学習システムでは、信頼度スコアを利用して選択的予測を管理している。
しかし、精度、予測校正誤差(ECE)、リスクカバレッジ曲線(AURC)の下の領域といった従来の指標は、予測の実際の信頼性を捉えていない。
これらの指標は、信頼を完全に無視するか、平均化を通じて貴重な局部情報を希薄にするか、または、現実世界のシステムでは特に有害な過度な誤分類を適切に罰することを無視している。
CWSA(Confidence-Weighted Selective Accuracy)と、その正規化された変種CWSA+(CWSA+)は、信頼しきい値の下で予測モデルを評価するための原則的で解釈可能な方法である。
既存の方法とは異なり、我々のメトリクスは自信のある正確さを明示的に報い、過度に自信過剰な間違いを罰します。
信頼とリスクの定量化が必要な評価設定とデプロイメント設定の両方で使用することができる。
実世界のデータセット(MNIST, CIFAR-10)と人工モデル変種(校正,過信,過信,過信,無作為,完全)の徹底的な実験により,CWSAとCWSA+はともに信頼度の高いテストにおいて,ニュアンスド障害モードを効果的に検出し, 古典的指標を上回る性能を示す。
CWSAは安全クリティカルドメインの選択予測システムを開発・評価するための健全な基盤であることを確認した。
関連論文リスト
- Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets [0.0]
しばしば感情的な抑圧と突然のアウトバーストによって引き起こされる道路の怒りは、衝突や攻撃的な行動を引き起こすことによって道路の安全を著しく脅かす。
音声感情認識技術は、ネガティブな感情を早期に識別し、タイムリーな警告を発することにより、このリスクを軽減することができる。
本稿では,予測精度を統計的に厳格に保証するリスク制御予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T12:26:28Z) - Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - MACEst: The reliable and trustworthy Model Agnostic Confidence Estimator [0.17188280334580192]
我々は、標準的な機械学習ポイント予測アルゴリズムに基づく信頼度推定は、基本的に欠陥があると主張している。
MACEstは信頼性と信頼性の高い信頼度推定を提供するモデル非依存信頼度推定器である。
論文 参考訳(メタデータ) (2021-09-02T14:34:06Z) - Failure Prediction by Confidence Estimation of Uncertainty-Aware
Dirichlet Networks [6.700873164609009]
不確実性を考慮したディープディリクレニューラルネットワークは、真のクラス確率計量における正しい予測と誤予測の信頼性の分離を改善できることが示されている。
不均衡とTCP制約を考慮に入れながら、予測信頼度と一致させることで、真のクラス確率を学習するための新しい基準を提案する。
論文 参考訳(メタデータ) (2020-10-19T21:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。