論文の概要: NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries?
- arxiv url: http://arxiv.org/abs/2211.04364v1
- Date: Tue, 8 Nov 2022 16:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:21:57.651184
- Title: NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries?
- Title(参考訳): Natural Adversaries: 自然主義の敵は人工の敵と同じくらい効果的か?
- Authors: Saadia Gabriel, Hamid Palangi, Yejin Choi
- Abstract要約: 自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
- 参考スコア(独自算出の注目度): 61.58261351116679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While a substantial body of prior work has explored adversarial example
generation for natural language understanding tasks, these examples are often
unrealistic and diverge from the real-world data distributions. In this work,
we introduce a two-stage adversarial example generation framework
(NaturalAdversaries), for designing adversaries that are effective at fooling a
given classifier and demonstrate natural-looking failure cases that could
plausibly occur during in-the-wild deployment of the models.
At the first stage a token attribution method is used to summarize a given
classifier's behaviour as a function of the key tokens in the input. In the
second stage a generative model is conditioned on the key tokens from the first
stage. NaturalAdversaries is adaptable to both black-box and white-box
adversarial attacks based on the level of access to the model parameters. Our
results indicate these adversaries generalize across domains, and offer
insights for future research on improving robustness of neural text
classification models.
- Abstract(参考訳): 先行研究のかなりの部分は、自然言語理解タスクの逆例生成を探索してきたが、これらの例はしばしば非現実的で、実世界のデータ分布から分岐している。
本研究では,与えられた分類器を騙すのに効果的である敵を設計するための2段階の逆例生成フレームワーク(Natural Adversaries)を導入し,モデル内展開時に起こりうる自然な障害事例を示す。
最初の段階では、入力中のキートークンの関数として与えられた分類器の振る舞いを要約するためにトークン属性法が使用される。
第2段階では、生成モデルが第1ステージからのキートークンで条件付けされる。
NaturalAdversariesは、モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの両方の攻撃に適応できる。
以上の結果から,これらの敵はドメイン全体にわたって一般化し,今後のニューラルネットワーク分類モデルの堅牢性向上に向けた知見を提供する。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Rethinking Model Ensemble in Transfer-based Adversarial Attacks [46.82830479910875]
転送可能性を改善する効果的な戦略は、モデルのアンサンブルを攻撃することである。
これまでの作業は、単に異なるモデルの出力を平均化するだけであった。
我々は、より移動可能な敵の例を生成するために、CWA(Common Weakness Attack)を提案する。
論文 参考訳(メタデータ) (2023-03-16T06:37:16Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Gradient-based adversarial attacks on categorical sequence models via
traversing an embedded world [11.711134497239332]
我々は、分類列を持つディープラーニングモデルに対する敵対的攻撃について検討する。
2つのブラックボックス攻撃を用いてこれらの課題に対処する。
金銭取引、医療詐欺、NLPデータセットの結果は、提案手法が合理的な逆数列を生成することを示唆している。
論文 参考訳(メタデータ) (2020-03-09T14:31:36Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z) - Generating Natural Adversarial Hyperspectral examples with a modified
Wasserstein GAN [0.0]
本稿では,第2パラダイムに従う真のデータから,自然な逆例を生成できる新しい手法を提案する。
リモートセンシングデータセット上で逆スペクトル超スペクトルシグネチャを生成することによって,本手法の概念実証を行う。
論文 参考訳(メタデータ) (2020-01-27T07:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。