論文の概要: A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification
- arxiv url: http://arxiv.org/abs/2211.15259v1
- Date: Mon, 28 Nov 2022 12:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 16:34:16.997964
- Title: A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification
- Title(参考訳): 画像分類における故障検出のための評価実践を振り返って
- Authors: Paul F. Jaeger, Carsten T. L\"uth, Lukas Klein and Till J. Bungert
- Abstract要約: 本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.491574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable application of machine learning-based decision systems in the wild
is one of the major challenges currently investigated by the field. A large
portion of established approaches aims to detect erroneous predictions by means
of assigning confidence scores. This confidence may be obtained by either
quantifying the model's predictive uncertainty, learning explicit scoring
functions, or assessing whether the input is in line with the training
distribution. Curiously, while these approaches all state to address the same
eventual goal of detecting failures of a classifier upon real-life application,
they currently constitute largely separated research fields with individual
evaluation protocols, which either exclude a substantial part of relevant
methods or ignore large parts of relevant failure sources. In this work, we
systematically reveal current pitfalls caused by these inconsistencies and
derive requirements for a holistic and realistic evaluation of failure
detection. To demonstrate the relevance of this unified perspective, we present
a large-scale empirical study for the first time enabling benchmarking
confidence scoring functions w.r.t all relevant methods and failure sources.
The revelation of a simple softmax response baseline as the overall best
performing method underlines the drastic shortcomings of current evaluation in
the abundance of publicized research on confidence scoring. Code and trained
models are at https://github.com/IML-DKFZ/fd-shifts.
- Abstract(参考訳): 機械学習に基づく意思決定システムの荒野における信頼性の高い適用は、現在この分野で調査されている大きな課題の1つだ。
確立されたアプローチの大部分は、信頼スコアを割り当てることで誤った予測を検出することを目的としている。
この信頼性は、モデルの予測の不確かさを定量化したり、明示的なスコアリング関数を学習したり、入力がトレーニング分布と一致しているかを評価することによって得られる。
事実、これら全ての状態は実生活のアプリケーション上で分類器の故障を検出するという同じ目標に対処するが、現在では個々の評価プロトコルで大半を分離した研究分野を構成しており、関連する手法のかなりの部分を除外するか、関連する障害源の大部分を無視する。
本研究では,これらの不整合に起因する現在の落とし穴を系統的に明らかにし,障害検出の全体的かつ現実的な評価のための要件を導出する。
この統一的な視点の関連性を示すために,本研究では,信頼度スコアリング関数w.r.tを,関連するすべての方法と障害源として,初めて大規模実証研究を行う。
簡便なソフトマックス応答ベースラインの総合的評価手法としての啓示は、信頼度スコアリングに関する公開研究が豊富にある中で、現在の評価の劇的な欠点を浮き彫りにしている。
コードとトレーニングされたモデルはhttps://github.com/IML-DKFZ/fd-shiftsにある。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Learning-Based Approaches to Predictive Monitoring with Conformal
Statistical Guarantees [2.1684857243537334]
本チュートリアルは、予測モニタリング(PM)のための効率的な手法に焦点を当てている。
PMは、システムの現在の状態から与えられた要件の将来の違反を検出する問題である。
CPSの予測モニタリングに対する我々のアプローチを要約した、汎用的で包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-04T15:16:42Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Large Class Separation is not what you need for Relational
Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。
これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。
実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文 参考訳(メタデータ) (2023-07-12T14:10:15Z) - Robust Deep Learning for Autonomous Driving [0.0]
モデル信頼度を確実に推定する新しい基準を導入する:真のクラス確率(TCP)
真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。
本研究は, 既知モデルに基づく新たな不確実性尺度を導入することで, 誤分類と分布外サンプルを共同で検出する課題に対処する。
論文 参考訳(メタデータ) (2022-11-14T22:07:11Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep
Learning [70.72363097550483]
本研究では,画像分類における領域内不確実性に着目した。
そこで本研究では,ディープアンサンブル等価スコア(DEE)を導入する。
論文 参考訳(メタデータ) (2020-02-15T23:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。