論文の概要: Formulating Robustness Against Unforeseen Attacks
- arxiv url: http://arxiv.org/abs/2204.13779v1
- Date: Thu, 28 Apr 2022 21:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 14:35:45.658613
- Title: Formulating Robustness Against Unforeseen Attacks
- Title(参考訳): 予期せぬ攻撃に対するロバストネスの定式化
- Authors: Sihui Dai, Saeed Mahloujifar, Prateek Mittal
- Abstract要約: 本稿では,訓練中の防衛が想定する脅威モデルにミスマッチが存在するシナリオに焦点を当てる。
学習者が特定の"ソース"脅威モデルに対してトレーニングした場合、テスト期間中に、より強力な未知の"ターゲット"脅威モデルにロバスト性が一般化できることをいつ期待できるか?
本稿では,AT-VRを用いた対戦型トレーニングを提案し,トレーニング中の特徴抽出器の変動を低減させる。
- 参考スコア(独自算出の注目度): 34.302333899025044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing defenses against adversarial examples such as adversarial training
typically assume that the adversary will conform to a specific or known threat
model, such as $\ell_p$ perturbations within a fixed budget. In this paper, we
focus on the scenario where there is a mismatch in the threat model assumed by
the defense during training, and the actual capabilities of the adversary at
test time. We ask the question: if the learner trains against a specific
"source" threat model, when can we expect robustness to generalize to a
stronger unknown "target" threat model during test-time? Our key contribution
is to formally define the problem of learning and generalization with an
unforeseen adversary, which helps us reason about the increase in adversarial
risk from the conventional perspective of a known adversary. Applying our
framework, we derive a generalization bound which relates the generalization
gap between source and target threat models to variation of the feature
extractor, which measures the expected maximum difference between extracted
features across a given threat model. Based on our generalization bound, we
propose adversarial training with variation regularization (AT-VR) which
reduces variation of the feature extractor across the source threat model
during training. We empirically demonstrate that AT-VR can lead to improved
generalization to unforeseen attacks during test-time compared to standard
adversarial training on Gaussian and image datasets.
- Abstract(参考訳): 敵の訓練のような敵の例に対する既存の防御は、通常、敵は固定予算内での$\ell_p$摂動のような特定のまたは既知の脅威モデルに従うと仮定する。
本稿では,訓練中に防衛側が想定する脅威モデルにミスマッチがあるシナリオと,テスト時の敵の実際の能力に注目した。
学習者が特定の"ソース"脅威モデルに対してトレーニングした場合、テスト期間中に、堅牢性がより強力な未知の"ターゲット"脅威モデルに一般化できるでしょうか?
我々の重要な貢献は、予期せぬ敵によって学習と一般化の問題を正式に定義することであり、既知の敵の従来の見方から、敵のリスクの増加の理由付けに役立ちます。
本フレームワークの適用により,対象脅威モデルと対象脅威モデルの一般化ギャップを特徴抽出器の変動に関連付ける一般化境界が導出され,与えられた脅威モデル間で抽出された特徴の最大差を測定する。
一般化バウンダリに基づいて、トレーニング中のソース脅威モデルにおける特徴抽出器のばらつきを低減する変動正則化(AT-VR)による逆トレーニングを提案する。
at-vrはgaussianやimage datasetsの通常の敵対的トレーニングと比較して,テスト期間中の予期せぬ攻撃に対する一般化を改善できることを実証的に実証する。
関連論文リスト
- Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Consistent Valid Physically-Realizable Adversarial Attack against
Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。
DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文 参考訳(メタデータ) (2023-03-05T13:30:25Z) - Self-Ensemble Adversarial Training for Improved Robustness [14.244311026737666]
敵の訓練は、あらゆる種類の防衛方法において、様々な敵の攻撃に対する最強の戦略である。
最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。
我々は,歴史モデルの重みを平均化し,頑健な分類器を生成するための,単純だが強力なemphSelf-Ensemble Adversarial Training (SEAT)法を考案した。
論文 参考訳(メタデータ) (2022-03-18T01:12:18Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。