論文の概要: Break it, Imitate it, Fix it: Robustness by Generating Human-Like
Attacks
- arxiv url: http://arxiv.org/abs/2310.16955v2
- Date: Wed, 14 Feb 2024 20:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 23:32:42.172401
- Title: Break it, Imitate it, Fix it: Robustness by Generating Human-Like
Attacks
- Title(参考訳): 破壊し、イミットし、修正する:人間のような攻撃を発生させるロバスト性
- Authors: Aradhana Sinha, Ananth Balashankar, Ahmad Beirami, Thi Avrahami, Jilin
Chen, Alex Beutel
- Abstract要約: 本稿では,人間に対して限られた例を用いて,より有用な例を大規模に生成する対戦訓練フレームワークを提案する。
本稿では、ANLIとヘイトスピーチ検出ベンチマークのデータセット上で、このシステムの利点を実証する。
- 参考スコア(独自算出の注目度): 18.66548052614702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world natural language processing systems need to be robust to human
adversaries. Collecting examples of human adversaries for training is an
effective but expensive solution. On the other hand, training on synthetic
attacks with small perturbations - such as word-substitution - does not
actually improve robustness to human adversaries. In this paper, we propose an
adversarial training framework that uses limited human adversarial examples to
generate more useful adversarial examples at scale. We demonstrate the
advantages of this system on the ANLI and hate speech detection benchmark
datasets - both collected via an iterative, adversarial
human-and-model-in-the-loop procedure. Compared to training only on observed
human attacks, also training on our synthetic adversarial examples improves
model robustness to future rounds. In ANLI, we see accuracy gains on the
current set of attacks (44.1%$\,\to\,$50.1%) and on two future unseen rounds of
human generated attacks (32.5%$\,\to\,$43.4%, and 29.4%$\,\to\,$40.2%). In hate
speech detection, we see AUC gains on current attacks (0.76 $\to$ 0.84) and a
future round (0.77 $\to$ 0.79). Attacks from methods that do not learn the
distribution of existing human adversaries, meanwhile, degrade robustness.
- Abstract(参考訳): 現実世界の自然言語処理システムは、人間の敵に対して堅牢である必要がある。
トレーニングのための人間の敵の例を集めることは、効果的だが高価なソリューションである。
一方で、単語置換のような小さな摂動による合成攻撃の訓練は、実際に人間の敵に対する堅牢性を改善するものではない。
本稿では,限定的な人的対人例を用いて,より有用な対人例を大規模に生成する対人訓練フレームワークを提案する。
本稿では、ANLIとヘイトスピーチ検出ベンチマークのデータセット上で、このシステムの利点を実証する。
人的攻撃のみの訓練に比べ、我々の合成敵の訓練は、将来のラウンドのモデルロバスト性を向上する。
anliでは、現在の攻撃セット(44.1%$\,\to\,$50.1%)と、将来の2回の人為攻撃(32.5%$\,\to\,43.4%、29.4%$\,\to\,$40.2%)において精度が向上している。
ヘイトスピーチ検出では、現在の攻撃(0.76$\to$ 0.84)と将来のラウンド(0.77$\to$ 0.79)でAUCが上昇する。
既存の人間の敵の分布を学習しない方法からの攻撃は、ロバスト性を低下させる。
関連論文リスト
- Asymmetric Bias in Text-to-Image Generation with Adversarial Attacks [21.914674640285337]
本稿では、攻撃成功率(ASR)に関連する要因の分析に焦点をあてる。
敵接尾辞と2つの勾配に基づく攻撃アルゴリズムを用いた新たな攻撃目標であるエンティティスワップを導入する。
敵の攻撃で成功確率が60%になる状況と、この確率が5%以下に低下する状況を見いだす。
論文 参考訳(メタデータ) (2023-12-22T05:10:32Z) - Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文 参考訳(メタデータ) (2023-09-10T21:36:38Z) - The Best Defense is a Good Offense: Adversarial Augmentation against
Adversarial Attacks [91.56314751983133]
A5$は、手元の入力に対する攻撃が失敗することを保証するために防御的摂動を構築するためのフレームワークである。
我々は,地上の真理ラベルを無視するロバスト化ネットワークを用いて,実機での防御強化を効果的に示す。
また、A5$を適用して、確実に堅牢な物理オブジェクトを作成する方法も示します。
論文 参考訳(メタデータ) (2023-05-23T16:07:58Z) - Improved Adversarial Training Through Adaptive Instance-wise Loss
Smoothing [5.1024659285813785]
敵の訓練は、このような敵の攻撃に対する最も成功した防御であった。
本稿では,新たな対人訓練手法を提案する。
本手法は,$ell_infty$-norm制約攻撃に対する最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2023-03-24T15:41:40Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Universal Adversarial Training with Class-Wise Perturbations [78.05383266222285]
敵の訓練は 敵の攻撃を防御するために 最も広く使われる方法です
この作業では、UAPがすべてのクラスを等しく攻撃しないことがわかります。
我々は,対人訓練におけるクラスワイドUAPの利用を提案することで,SOTA UATを改善した。
論文 参考訳(メタデータ) (2021-04-07T09:05:49Z) - What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors [57.040948169155925]
敵対的なトレーニングフレームワークを拡張し、(訓練時間)中毒やバックドア攻撃から防御します。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2021-02-26T17:54:36Z) - Target Training Does Adversarial Training Without Adversarial Samples [0.10152838128195464]
敵のサンプルは 敵の攻撃のコアの最小化に基づいて ステアリング・アタック・コンバージェンスに最適ではありません
標的訓練は、摂動を最小限に抑える全ての攻撃に対して、訓練のための敵のサンプルを生成する必要をなくす。
CIFAR10では、摂動を最小化しない攻撃に対する敵のサンプルを使用して、現在の最良の防御(69.1$%)を超え、CW-L$($kappa=40$)に対して76.4$%となる。
論文 参考訳(メタデータ) (2021-02-09T14:17:57Z) - Semantics-Preserving Adversarial Training [12.242659601882147]
逆行訓練は、訓練データに逆行例を含めることで、ディープニューラルネットワーク(DNN)の逆行性を改善する技術である。
本研究では,すべてのクラスで共有される画素の摂動を促すセマンティックス保存逆行訓練(SPAT)を提案する。
実験の結果,SPATは対向ロバスト性を向上し,CIFAR-10およびCIFAR-100の最先端結果を達成することがわかった。
論文 参考訳(メタデータ) (2020-09-23T07:42:14Z) - Perceptual Adversarial Robustness: Defense Against Unseen Threat Models [58.47179090632039]
敵対的堅牢性の鍵となる課題は、人間の知覚を正確に数学的に特徴づけることの欠如である。
ニューラル・パーセプチュアル・脅威モデルの下で、我々は新しいパーセプチュアル・アタックとディフェンスを開発する。
NPTMは非常に広範であるため、知覚的攻撃に対する知覚的適応訓練(PAT)は、他の多くの種類の敵対的攻撃に対して堅牢性を与える。
論文 参考訳(メタデータ) (2020-06-22T22:40:46Z) - Using Single-Step Adversarial Training to Defend Iterative Adversarial
Examples [6.609200722223488]
そこで本研究では,単段階と反復的な両対向的な例から防御できる,新しい一段階対向訓練法を提案する。
提案手法は, 試験精度が35.67%向上し, 訓練時間を19.14%短縮する。
論文 参考訳(メタデータ) (2020-02-22T05:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。