論文の概要: ATRO: Adversarial Training with a Rejection Option
- arxiv url: http://arxiv.org/abs/2010.12905v1
- Date: Sat, 24 Oct 2020 14:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:16:27.028131
- Title: ATRO: Adversarial Training with a Rejection Option
- Title(参考訳): atro: 拒絶オプションによる敵対的トレーニング
- Authors: Masahiro Kato, Zhenghang Cui, Yoshihiro Fukuhara
- Abstract要約: 本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
- 参考スコア(独自算出の注目度): 10.36668157679368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a classification framework with a rejection option to
mitigate the performance deterioration caused by adversarial examples. While
recent machine learning algorithms achieve high prediction performance, they
are empirically vulnerable to adversarial examples, which are slightly
perturbed data samples that are wrongly classified. In real-world applications,
adversarial attacks using such adversarial examples could cause serious
problems. To this end, various methods are proposed to obtain a classifier that
is robust against adversarial examples. Adversarial training is one of them,
which trains a classifier to minimize the worst-case loss under adversarial
attacks. In this paper, in order to acquire a more reliable classifier against
adversarial attacks, we propose the method of Adversarial Training with a
Rejection Option (ATRO). Applying the adversarial training objective to both a
classifier and a rejection function simultaneously, classifiers trained by ATRO
can choose to abstain from classification when it has insufficient confidence
to classify a test data point. We examine the feasibility of the framework
using the surrogate maximum hinge loss and establish a generalization bound for
linear models. Furthermore, we empirically confirmed the effectiveness of ATRO
using various models and real-world datasets.
- Abstract(参考訳): 本稿では,逆例による性能劣化を軽減するために,拒否オプション付き分類フレームワークを提案する。
最近の機械学習アルゴリズムは高い予測性能を達成する一方で、不正に分類されたわずかに摂動したデータサンプルである敵の例に対して、実証的に脆弱である。
現実世界のアプリケーションでは、そのような敵の例を使った敵の攻撃は深刻な問題を引き起こす可能性がある。
この目的のために, 反対例に対して頑健な分類器を得るための様々な手法を提案する。
敵の攻撃による最悪の場合の損失を最小限に抑えるために、分類器を訓練する。
本稿では,敵の攻撃に対するより信頼性の高い分類器を取得するために,拒絶オプション(atro)を用いた敵の訓練方法を提案する。
分類器と拒絶関数の両方に同時に対向訓練目標を適用することにより、ATROによって訓練された分類器は、試験データポイントを分類する自信が不十分な場合に分類を控えることができる。
本研究では, 最大ヒンジ損失を用いた枠組みの実現可能性について検討し, 線形モデルに対する一般化を確立する。
さらに,様々なモデルと実世界のデータセットを用いてatroの有効性を実証的に確認した。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Advancing Adversarial Robustness Through Adversarial Logit Update [10.041289551532804]
敵の訓練と敵の浄化は最も広く認知されている防衛戦略の一つである。
そこで本稿では,新たな原則であるALU(Adversarial Logit Update)を提案する。
本手法は,幅広い敵攻撃に対する最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-29T07:13:31Z) - Stratified Adversarial Robustness with Rejection [33.72077702550626]
本研究は, 階層化拒絶条件において, 否定を伴う逆ロバスト分類について検討する。
我々は,一貫性予測に基づくリジェクション(CPR)を用いた対人訓練という新しい防衛手法を提案する。
CPRは、アダプティブアタックによって既存の手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T01:04:29Z) - Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning
Few-Shot Meta-Learners [28.468089304148453]
これにより、システムの学習アルゴリズムを騙すような、衝突する入力セットを作れます。
ホワイトボックス環境では、これらの攻撃は非常に成功しており、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示す。
攻撃による「過度な対応」と、攻撃が生成されたモデルと攻撃が転送されたモデルとのミスマッチという2つの仮説を探索する。
論文 参考訳(メタデータ) (2022-11-23T14:55:44Z) - PARL: Enhancing Diversity of Ensemble Networks to Resist Adversarial
Attacks via Pairwise Adversarially Robust Loss Function [13.417003144007156]
敵の攻撃は 転送可能性の原理に 依存する傾向があります
敵攻撃に対するアンサンブル法は、敵の例が複数の分類器を誤解させる可能性が低いことを示す。
最近のアンサンブル法は、より強い敵に弱いか、エンドツーエンドの評価が欠如していることが示されている。
論文 参考訳(メタデータ) (2021-12-09T14:26:13Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z) - Class-Aware Domain Adaptation for Improving Adversarial Robustness [27.24720754239852]
学習データに敵の例を注入することにより,ネットワークを訓練するための敵の訓練が提案されている。
そこで本研究では,対人防御のための新しいクラスアウェアドメイン適応法を提案する。
論文 参考訳(メタデータ) (2020-05-10T03:45:19Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。