論文の概要: Adversarial Training with Rectified Rejection
- arxiv url: http://arxiv.org/abs/2105.14785v1
- Date: Mon, 31 May 2021 08:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:27:29.146484
- Title: Adversarial Training with Rectified Rejection
- Title(参考訳): 正解拒絶をともなう敵意訓練
- Authors: Tianyu Pang, Huishuai Zhang, Di He, Yinpeng Dong, Hang Su, Wei Chen,
Jun Zhu, Tie-Yan Liu
- Abstract要約: 本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
- 参考スコア(独自算出の注目度): 114.83821848791206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training (AT) is one of the most effective strategies for
promoting model robustness, whereas even the state-of-the-art adversarially
trained models struggle to exceed 60% robust test accuracy on CIFAR-10 without
additional data, which is far from practical. A natural way to break this
accuracy bottleneck is to introduce a rejection option, where confidence is a
commonly used certainty proxy. However, the vanilla confidence can overestimate
the model certainty if the input is wrongly classified. To this end, we propose
to use true confidence (T-Con) (i.e., predicted probability of the true class)
as a certainty oracle, and learn to predict T-Con by rectifying confidence. We
prove that under mild conditions, a rectified confidence (R-Con) rejector and a
confidence rejector can be coupled to distinguish any wrongly classified input
from correctly classified ones, even under adaptive attacks. We also quantify
that training R-Con to be aligned with T-Con could be an easier task than
learning robust classifiers. In our experiments, we evaluate our rectified
rejection (RR) module on CIFAR-10, CIFAR-10-C, and CIFAR-100 under several
attacks, and demonstrate that the RR module is well compatible with different
AT frameworks on improving robustness, with little extra computation.
- Abstract(参考訳): 対人訓練(AT)は、モデル堅牢性を推進するための最も効果的な戦略の1つであり、最先端の対人訓練モデルでさえ、追加データなしでCIFAR-10上でのテスト精度を60%以上越えることに苦慮している。
この精度ボトルネックを突破する自然な方法は、信頼が一般的に使用される確実性プロキシである拒絶オプションを導入することだ。
しかし、バニラ信頼度は入力が誤って分類された場合、モデルの確実性を過大評価することができる。
そこで本研究では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正することでT-Conを予測することを提案する。
穏やかな条件下では、不適切な分類された入力と正しく分類された入力を区別するために、修正された信頼度(r-con)拒絶者と信頼拒否者とを結合することができることを証明する。
また、R-ConのトレーニングをT-Conに合わせることは、ロバストな分類器を学ぶよりも容易なタスクであると定量化します。
実験では, CIFAR-10, CIFAR-10-C, CIFAR-100 上の正則拒否モジュール (RR) をいくつかの攻撃下で評価し, RR モジュールが頑健性向上のための様々な AT フレームワークと互換性があり, 余分な計算がほとんどないことを示した。
関連論文リスト
- New Paradigm of Adversarial Training: Breaking Inherent Trade-Off between Accuracy and Robustness via Dummy Classes [11.694880978089852]
対人訓練(AT)は、DNNの堅牢性を高める最も効果的な方法の1つである。
既存のAT手法は、対向的堅牢性とクリーンな精度の間の本質的にのトレードオフに悩まされる。
そこで本研究では,各オリジナルクラスに対してダミークラスを追加することで,新たなATパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-16T15:36:10Z) - MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers [41.56951365163419]
MixedNUTSは、ロバストな分類器の出力ロジットを3つのパラメータしか持たない非線形変換で処理する訓練不要の手法である。
MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。
CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの精度とほぼSOTAの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-03T21:12:36Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Carefully Blending Adversarial Training and Purification Improves Adversarial Robustness [1.2289361708127877]
CARSOは、防御のために考案された適応的なエンドツーエンドのホワイトボックス攻撃から自身を守ることができる。
提案手法はCIFAR-10, CIFAR-100, TinyImageNet-200の最先端技術により改善されている。
論文 参考訳(メタデータ) (2023-05-25T09:04:31Z) - RUSH: Robust Contrastive Learning via Randomized Smoothing [31.717748554905015]
本稿では、対照的な事前学習がロバストネスと興味深いが暗黙の結びつきを持っているという驚くべき事実を示す。
我々は、標準的なコントラスト付き事前学習とランダムな平滑化を組み合わせた強力な対逆攻撃に対する堅牢なアルゴリズムRUSHを設計する。
我々の研究は、最先端技術と比較して、堅牢な精度が15%以上向上し、標準精度がわずかに改善されている。
論文 参考訳(メタデータ) (2022-07-11T18:45:14Z) - Adversarial Feature Stacking for Accurate and Robust Predictions [4.208059346198116]
Adversarial Feature Stacking (AFS)モデルは、さまざまなレベルの堅牢性と精度を持つ機能を共同で活用することができる。
CIFAR-10およびCIFAR-100データセット上でのAFSモデルの評価を行った。
論文 参考訳(メタデータ) (2021-03-24T12:01:24Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning [134.15174177472807]
対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。
提案するフレームワークが大きなパフォーマンスマージンを達成できることを示すため,広範な実験を行う。
論文 参考訳(メタデータ) (2020-03-28T18:28:33Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。