論文の概要: Comprehensive Assessment of the Performance of Deep Learning Classifiers
Reveals a Surprising Lack of Robustness
- arxiv url: http://arxiv.org/abs/2308.04137v1
- Date: Tue, 8 Aug 2023 08:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:38:06.979803
- Title: Comprehensive Assessment of the Performance of Deep Learning Classifiers
Reveals a Surprising Lack of Robustness
- Title(参考訳): 難易度を考慮に入れた深層学習分類器の性能に関する総合的評価
- Authors: Michael W. Spratling
- Abstract要約: 本稿では,多種多様なデータを用いたベンチマーキング性能について論じる。
現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられている手法で訓練された者を含む、ある種のデータに間違いを犯すことに対して極めて脆弱であることが判明した。
- 参考スコア(独自算出の注目度): 2.1320960069210484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable and robust evaluation methods are a necessary first step towards
developing machine learning models that are themselves robust and reliable.
Unfortunately, current evaluation protocols typically used to assess
classifiers fail to comprehensively evaluate performance as they tend to rely
on limited types of test data, and ignore others. For example, using the
standard test data fails to evaluate the predictions made by the classifier to
samples from classes it was not trained on. On the other hand, testing with
data containing samples from unknown classes fails to evaluate how well the
classifier can predict the labels for known classes. This article advocates
bench-marking performance using a wide range of different types of data and
using a single metric that can be applied to all such data types to produce a
consistent evaluation of performance. Using such a benchmark it is found that
current deep neural networks, including those trained with methods that are
believed to produce state-of-the-art robustness, are extremely vulnerable to
making mistakes on certain types of data. This means that such models will be
unreliable in real-world scenarios where they may encounter data from many
different domains, and that they are insecure as they can easily be fooled into
making the wrong decisions. It is hoped that these results will motivate the
wider adoption of more comprehensive testing methods that will, in turn, lead
to the development of more robust machine learning methods in the future.
Code is available at:
\url{https://codeberg.org/mwspratling/RobustnessEvaluation}
- Abstract(参考訳): 信頼性が高くロバストな評価手法は、それ自体が堅牢で信頼性の高い機械学習モデルを開発する上で必要な第一歩である。
残念ながら、分類器を評価するために一般的に使用される現在の評価プロトコルは、限られた種類のテストデータに依存する傾向があるため、パフォーマンスを総合的に評価できない。
例えば、標準のテストデータを使用すると、分類器がトレーニングしていないクラスからサンプルへの予測を評価することができない。
一方、未知クラスのサンプルを含むデータを用いたテストでは、分類器が既知のクラスのラベルをどの程度正確に予測できるかを評価することができない。
本稿では,多種多様なデータを用いたベンチマーキング性能と,そのようなデータ型すべてに適用可能な単一のメトリクスを用いて,一貫した性能評価を行う。
このようなベンチマークを用いて、現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられているメソッドで訓練されているものを含む、ある種のデータに対するミスに対して極めて脆弱であることが判明した。
つまり、このようなモデルは、さまざまなドメインのデータに遭遇する可能性のある現実のシナリオでは信頼できないし、誤った判断をするのは簡単に騙されるため、安全ではない、ということだ。
これらの結果によって、より包括的なテスト手法が広く採用され、その結果、将来的にはより堅牢な機械学習手法の開発につながることが期待されている。
コードは以下の通り。 \url{https://codeberg.org/mwspratling/RobustnessEvaluation}
関連論文リスト
- Fantastic DNN Classifiers and How to Identify them without Data [0.685316573653194]
トレーニング済みのDNN分類器の品質をサンプルデータなしで評価できることを示す。
1つはプロトタイプの特徴を用いており、もう1つはプロトタイプに対応する逆例を用いている。
実験により, 試験例から得られた精度は, 提案した指標から得られた品質指標と直接的に比例することを示した。
論文 参考訳(メタデータ) (2023-05-24T20:54:48Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Review of Methods for Handling Class-Imbalanced in Classification
Problems [0.0]
場合によっては、あるクラスはほとんどの例を含むが、他方はより重要なクラスであり、しかしながら、少数の例で表される。
本稿では、データレベル、アルゴリズムレベル、ハイブリッド、コスト感受性学習、ディープラーニングを含む、クラス不均衡による学習の問題に対処する最も広く使われている手法について検討する。
論文 参考訳(メタデータ) (2022-11-10T10:07:10Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。