論文の概要: A Comprehensive Assessment Benchmark for Rigorously Evaluating Deep Learning Image Classifiers
- arxiv url: http://arxiv.org/abs/2308.04137v2
- Date: Sat, 07 Dec 2024 13:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:31.463414
- Title: A Comprehensive Assessment Benchmark for Rigorously Evaluating Deep Learning Image Classifiers
- Title(参考訳): ディープラーニング画像分類器の厳密な評価のための総合評価ベンチマーク
- Authors: Michael W. Spratling,
- Abstract要約: 本稿では,多種多様なデータを用いたベンチマーキング性能について論じる。
現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられている手法で訓練された者を含む、ある種のデータに間違いを犯すことに対して極めて脆弱であることが判明した。
- 参考スコア(独自算出の注目度): 4.768207906634657
- License:
- Abstract: Reliable and robust evaluation methods are a necessary first step towards developing machine learning models that are themselves robust and reliable. Unfortunately, current evaluation protocols typically used to assess classifiers fail to comprehensively evaluate performance as they tend to rely on limited types of test data, and ignore others. For example, using the standard test data fails to evaluate the predictions made by the classifier to samples from classes it was not trained on. On the other hand, testing with data containing samples from unknown classes fails to evaluate how well the classifier can predict the labels for known classes. This article advocates bench-marking performance using a wide range of different types of data and using a single metric that can be applied to all such data types to produce a consistent evaluation of performance. Using such a benchmark it is found that current deep neural networks, including those trained with methods that are believed to produce state-of-the-art robustness, are extremely vulnerable to making mistakes on certain types of data. This means that such models will be unreliable in real-world scenarios where they may encounter data from many different domains, and that they are insecure as they can easily be fooled into making the wrong decisions. It is hoped that these results will motivate the wider adoption of more comprehensive testing methods that will, in turn, lead to the development of more robust machine learning methods in the future. Code is available at: https://codeberg.org/mwspratling/RobustnessEvaluation
- Abstract(参考訳): 信頼性と堅牢性の評価方法は、自分自身が堅牢で信頼性のある機械学習モデルを開発するための、必要な第一歩である。
残念なことに、一般的に分類器を評価するために使われている現在の評価プロトコルは、限られたタイプのテストデータに依存する傾向にあるため、パフォーマンスを包括的に評価することができない。
例えば、標準的なテストデータを使用することで、クラスがトレーニングしていないクラスからのサンプルに対して、分類器が生成した予測を評価することができません。
一方、未知のクラスからのサンプルを含むデータを用いたテストでは、分類器が既知のクラスのラベルをどの程度正確に予測できるかを評価することができない。
本稿では,多種多様なデータを用いたベンチマーキング性能と,そのようなデータ型すべてに適用可能な単一メトリックを用いて,一貫した性能評価を実現することを提案する。
このようなベンチマークを用いて、現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられているメソッドで訓練されているものを含む、ある種のデータに対するミスに対して極めて脆弱であることが判明した。
これは、そのようなモデルは、多くの異なるドメインからのデータに遭遇する可能性がある現実世界のシナリオでは信頼性が低く、間違った決定を下すのに簡単に騙されるため、安全でないことを意味する。
これらの結果によって、より包括的なテスト手法が広く採用され、その結果、将来的にはより堅牢な機械学習手法の開発につながることが期待されている。
コードは、https://codeberg.org/mwspratling/RobustnessEvaluationで入手できる。
関連論文リスト
- Fantastic DNN Classifiers and How to Identify them without Data [0.685316573653194]
トレーニング済みのDNN分類器の品質をサンプルデータなしで評価できることを示す。
1つはプロトタイプの特徴を用いており、もう1つはプロトタイプに対応する逆例を用いている。
実験により, 試験例から得られた精度は, 提案した指標から得られた品質指標と直接的に比例することを示した。
論文 参考訳(メタデータ) (2023-05-24T20:54:48Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Review of Methods for Handling Class-Imbalanced in Classification
Problems [0.0]
場合によっては、あるクラスはほとんどの例を含むが、他方はより重要なクラスであり、しかしながら、少数の例で表される。
本稿では、データレベル、アルゴリズムレベル、ハイブリッド、コスト感受性学習、ディープラーニングを含む、クラス不均衡による学習の問題に対処する最も広く使われている手法について検討する。
論文 参考訳(メタデータ) (2022-11-10T10:07:10Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。