論文の概要: A Geometry-Inspired Attack for Generating Natural Language Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2010.01345v1
- Date: Sat, 3 Oct 2020 12:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 09:11:26.517441
- Title: A Geometry-Inspired Attack for Generating Natural Language Adversarial
Examples
- Title(参考訳): 自然言語対応例生成のための幾何学的インスパイア攻撃
- Authors: Zhao Meng, Roger Wattenhofer
- Abstract要約: 本稿では,自然言語の逆例を生成するための幾何学的攻撃を提案する。
私たちの攻撃は、いくつかの単語を置き換えながら、高い成功率で自然言語モデルを騙します。
さらなる実験により、敵の訓練は攻撃に対するモデルロバスト性を改善することが示されている。
- 参考スコア(独自算出の注目度): 13.427128424538505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating adversarial examples for natural language is hard, as natural
language consists of discrete symbols, and examples are often of variable
lengths. In this paper, we propose a geometry-inspired attack for generating
natural language adversarial examples. Our attack generates adversarial
examples by iteratively approximating the decision boundary of Deep Neural
Networks (DNNs). Experiments on two datasets with two different models show
that our attack fools natural language models with high success rates, while
only replacing a few words. Human evaluation shows that adversarial examples
generated by our attack are hard for humans to recognize. Further experiments
show that adversarial training can improve model robustness against our attack.
- Abstract(参考訳): 自然言語は離散的な記号で構成されており、例はしばしば可変長であるので、自然言語の逆例の生成は困難である。
本稿では,自然言語の逆例を生成するための幾何学的攻撃を提案する。
我々の攻撃は、Deep Neural Networks (DNN) の決定境界を反復的に近似することで敵の例を生成する。
2つの異なるモデルによる2つのデータセットの実験から、我々の攻撃はいくつかの単語を置き換えつつ、高い成功率で自然言語モデルを騙すことが示されている。
人間による評価は、我々の攻撃によって生じる敵の例は、人間が認識することが難しいことを示している。
さらなる実験により、敵の訓練は攻撃に対するモデル堅牢性を向上できることが示された。
関連論文リスト
- Generating Valid and Natural Adversarial Examples with Large Language
Models [18.944937459278197]
敵対的攻撃モデルは有効でも自然でもないため、意味的維持、文法性、そして人間の知覚不能が失われる。
本研究では,LLM-Attackを提案する。
The Movie Review (MR), IMDB, and Review Polarity datas against the baseline adversarial attack model showed the effect of LLM-Attack。
論文 参考訳(メタデータ) (2023-11-20T15:57:04Z) - Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。
具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。
実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文 参考訳(メタデータ) (2023-09-16T14:04:23Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Identifying Human Strategies for Generating Word-Level Adversarial
Examples [7.504832901086077]
以前の研究では、人間と機械が生成した敵の例はその自然さと文法的正しさに匹敵することがわかった。
本稿は、人間がこれらの敵対的な例をいかに作り出すか、正確に分析する。
論文 参考訳(メタデータ) (2022-10-20T21:16:44Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。