論文の概要: Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations
- arxiv url: http://arxiv.org/abs/2002.04599v2
- Date: Tue, 4 Aug 2020 16:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:09:34.832408
- Title: Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations
- Title(参考訳): 逆摂動に対する非分散と感度の基本的なトレードオフ
- Authors: Florian Tram\`er and Jens Behrmann and Nicholas Carlini and Nicolas
Papernot and J\"orn-Henrik Jacobsen
- Abstract要約: 敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
- 参考スコア(独自算出の注目度): 65.05561023880351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial examples are malicious inputs crafted to induce
misclassification. Commonly studied sensitivity-based adversarial examples
introduce semantically-small changes to an input that result in a different
model prediction. This paper studies a complementary failure mode,
invariance-based adversarial examples, that introduce minimal semantic changes
that modify an input's true label yet preserve the model's prediction. We
demonstrate fundamental tradeoffs between these two types of adversarial
examples.
We show that defenses against sensitivity-based attacks actively harm a
model's accuracy on invariance-based attacks, and that new approaches are
needed to resist both attack types. In particular, we break state-of-the-art
adversarially-trained and certifiably-robust models by generating small
perturbations that the models are (provably) robust to, yet that change an
input's class according to human labelers. Finally, we formally show that the
existence of excessively invariant classifiers arises from the presence of
overly-robust predictive features in standard datasets.
- Abstract(参考訳): 悪意のある例としては、誤分類を誘発する悪質な入力がある。
一般的に研究されている感度に基づく逆数例は、異なるモデル予測をもたらす入力に意味的に小さな変化をもたらす。
本稿では,入力の真のラベルを修正しながらモデルの予測を保ちながら,最小の意味的変化をもたらす相補的障害モード,不変性に基づく逆例について検討する。
これら2種類の対立例間の根本的なトレードオフを示す。
感度に基づく攻撃に対する防御は、モデルの不変性に基づく攻撃に対する精度に積極的に影響し、どちらの攻撃にも抵抗する新しいアプローチが必要であることを示す。
特に,人間のラベルによる入力のクラスを変更することによって,モデルが(確実に)堅牢であるような小さな摂動を生成することにより,最先端の学習と証明可能なロバストモデルを打ち破る。
最後に、標準データセットにおける過度に不変な分類器の存在は、過度にロバストな予測的特徴の存在から生じることを示す。
関連論文リスト
- In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Balanced Adversarial Training: Balancing Tradeoffs between Fickleness
and Obstinacy in NLP Models [21.06607915149245]
本研究は, 標準的な対人訓練手法により, ファックル対人例に対してより脆弱なモデルが得られることを示す。
本研究では, 対外学習を取り入れて, 対外的対外的対外的対外的対外的対外的対外的対外的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対
論文 参考訳(メタデータ) (2022-10-20T18:02:07Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Asymptotic Behavior of Adversarial Training in Binary Classification [41.7567932118769]
敵の訓練は、敵の攻撃に対する防衛の最先端の方法と考えられている。
実際に成功したにもかかわらず、敵の訓練のパフォーマンスを理解する上でのいくつかの問題は未解決のままである。
2進分類における対角訓練の最小化のための正確な理論的予測を導出する。
論文 参考訳(メタデータ) (2020-10-26T01:44:20Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。