論文の概要: Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification
- arxiv url: http://arxiv.org/abs/2109.04385v1
- Date: Thu, 9 Sep 2021 16:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 18:04:18.642444
- Title: Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification
- Title(参考訳): テキスト分類における人間と機械による単語レベル対応例の対比
- Authors: Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg,
Lewis D. Griffin
- Abstract要約: 我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
- 参考スコア(独自算出の注目度): 12.750016480098262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research shows that natural language processing models are generally
considered to be vulnerable to adversarial attacks; but recent work has drawn
attention to the issue of validating these adversarial inputs against certain
criteria (e.g., the preservation of semantics and grammaticality). Enforcing
constraints to uphold such criteria may render attacks unsuccessful, raising
the question of whether valid attacks are actually feasible. In this work, we
investigate this through the lens of human language ability. We report on
crowdsourcing studies in which we task humans with iteratively modifying words
in an input text, while receiving immediate model feedback, with the aim of
causing a sentiment classification model to misclassify the example. Our
findings suggest that humans are capable of generating a substantial amount of
adversarial examples using semantics-preserving word substitutions. We analyze
how human-generated adversarial examples compare to the recently proposed
TextFooler, Genetic, BAE and SememePSO attack algorithms on the dimensions
naturalness, preservation of sentiment, grammaticality and substitution rate.
Our findings suggest that human-generated adversarial examples are not more
able than the best algorithms to generate natural-reading, sentiment-preserving
examples, though they do so by being much more computationally efficient.
- Abstract(参考訳): 自然言語処理モデルは一般的に敵対的攻撃に対して脆弱であると考えられているが、最近の研究は、特定の基準(例えば意味論と文法性の保存)に対してこれらの敵対的入力を検証する問題に注意を向けている。
このような基準を守るための制約を課すと、攻撃は失敗し、有効な攻撃が実際に可能かどうかという疑問が提起される。
本研究では、人間の言語能力のレンズを通してこれを調査する。
本稿では,感情分類モデルに誤分類を生じさせることを目的として,入力テキスト中の単語を反復的に修正し,即時モデルフィードバックを受けながら人間にタスクを行うクラウドソーシング研究について報告する。
以上の結果から,人間は意味論的に保存された単語置換を用いて,相当量の逆例を生成できることが示唆された。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムと比較し, 自然性, 感情の保存, 文法性, 置換率について検討した。
以上の結果から,人間の生成した対向的な例は,より計算効率が高いにもかかわらず,自然に読み取るような感情を保存できる最善のアルゴリズムでは得られないことが示唆された。
関連論文リスト
- How do humans perceive adversarial text? A reality check on the validity
and naturalness of word-based adversarial attacks [4.297786261992324]
敵対的攻撃は 不正なアルゴリズムだ 入力テキストを不当に修正して モデルに誤った予測をさせる
378人の被験者を対象に,最先端の手法によるテキスト対逆例の知覚可能性について調査した。
以上の結果から,既存のテキスト攻撃は人間が関与する現実のシナリオでは実行不可能であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T21:52:13Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Identifying Human Strategies for Generating Word-Level Adversarial
Examples [7.504832901086077]
以前の研究では、人間と機械が生成した敵の例はその自然さと文法的正しさに匹敵することがわかった。
本稿は、人間がこれらの敵対的な例をいかに作り出すか、正確に分析する。
論文 参考訳(メタデータ) (2022-10-20T21:16:44Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z) - BAE: BERT-based Adversarial Examples for Text Classification [9.188318506016898]
我々は,BERTマスマスキング言語モデルからコンテキスト摂動を用いて,敵の例を生成するブラックボックス攻撃であるBAEを提案する。
BAEは, 文法性やセマンティック・コヒーレンスを向上した逆例を生成することに加えて, より強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2020-04-04T16:25:48Z) - Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models [41.85006993382117]
生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。
具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。
敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
論文 参考訳(メタデータ) (2020-03-10T03:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。