論文の概要: Comprehensive Assessment of the Performance of Deep Learning Classifiers
Reveals a Surprising Lack of Robustness
- arxiv url: http://arxiv.org/abs/2308.04137v1
- Date: Tue, 8 Aug 2023 08:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:38:06.979803
- Title: Comprehensive Assessment of the Performance of Deep Learning Classifiers
Reveals a Surprising Lack of Robustness
- Title(参考訳): 難易度を考慮に入れた深層学習分類器の性能に関する総合的評価
- Authors: Michael W. Spratling
- Abstract要約: 本稿では,多種多様なデータを用いたベンチマーキング性能について論じる。
現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられている手法で訓練された者を含む、ある種のデータに間違いを犯すことに対して極めて脆弱であることが判明した。
- 参考スコア(独自算出の注目度): 2.1320960069210484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable and robust evaluation methods are a necessary first step towards
developing machine learning models that are themselves robust and reliable.
Unfortunately, current evaluation protocols typically used to assess
classifiers fail to comprehensively evaluate performance as they tend to rely
on limited types of test data, and ignore others. For example, using the
standard test data fails to evaluate the predictions made by the classifier to
samples from classes it was not trained on. On the other hand, testing with
data containing samples from unknown classes fails to evaluate how well the
classifier can predict the labels for known classes. This article advocates
bench-marking performance using a wide range of different types of data and
using a single metric that can be applied to all such data types to produce a
consistent evaluation of performance. Using such a benchmark it is found that
current deep neural networks, including those trained with methods that are
believed to produce state-of-the-art robustness, are extremely vulnerable to
making mistakes on certain types of data. This means that such models will be
unreliable in real-world scenarios where they may encounter data from many
different domains, and that they are insecure as they can easily be fooled into
making the wrong decisions. It is hoped that these results will motivate the
wider adoption of more comprehensive testing methods that will, in turn, lead
to the development of more robust machine learning methods in the future.
Code is available at:
\url{https://codeberg.org/mwspratling/RobustnessEvaluation}
- Abstract(参考訳): 信頼性が高くロバストな評価手法は、それ自体が堅牢で信頼性の高い機械学習モデルを開発する上で必要な第一歩である。
残念ながら、分類器を評価するために一般的に使用される現在の評価プロトコルは、限られた種類のテストデータに依存する傾向があるため、パフォーマンスを総合的に評価できない。
例えば、標準のテストデータを使用すると、分類器がトレーニングしていないクラスからサンプルへの予測を評価することができない。
一方、未知クラスのサンプルを含むデータを用いたテストでは、分類器が既知のクラスのラベルをどの程度正確に予測できるかを評価することができない。
本稿では,多種多様なデータを用いたベンチマーキング性能と,そのようなデータ型すべてに適用可能な単一のメトリクスを用いて,一貫した性能評価を行う。
このようなベンチマークを用いて、現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられているメソッドで訓練されているものを含む、ある種のデータに対するミスに対して極めて脆弱であることが判明した。
つまり、このようなモデルは、さまざまなドメインのデータに遭遇する可能性のある現実のシナリオでは信頼できないし、誤った判断をするのは簡単に騙されるため、安全ではない、ということだ。
これらの結果によって、より包括的なテスト手法が広く採用され、その結果、将来的にはより堅牢な機械学習手法の開発につながることが期待されている。
コードは以下の通り。 \url{https://codeberg.org/mwspratling/RobustnessEvaluation}
関連論文リスト
- Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Estimating Confidence of Predictions of Individual Classifiers and Their
Ensembles for the Genre Classification Task [0.0]
Genre IDは、非トピックテキスト分類のサブクラスである。
BERTやXLM-RoBERTaのような事前訓練されたトランスフォーマーに基づく神経モデルは、多くのNLPタスクにおいてSOTA結果を示す。
論文 参考訳(メタデータ) (2022-06-15T09:59:05Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。