論文の概要: Identifying Human Strategies for Generating Word-Level Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2210.11598v1
- Date: Thu, 20 Oct 2022 21:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:25:46.207959
- Title: Identifying Human Strategies for Generating Word-Level Adversarial
Examples
- Title(参考訳): 単語レベル逆例生成のためのヒューマンストラテジーの同定
- Authors: Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin
- Abstract要約: 以前の研究では、人間と機械が生成した敵の例はその自然さと文法的正しさに匹敵することがわかった。
本稿は、人間がこれらの敵対的な例をいかに作り出すか、正確に分析する。
- 参考スコア(独自算出の注目度): 7.504832901086077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial examples in NLP are receiving increasing research attention. One
line of investigation is the generation of word-level adversarial examples
against fine-tuned Transformer models that preserve naturalness and
grammaticality. Previous work found that human- and machine-generated
adversarial examples are comparable in their naturalness and grammatical
correctness. Most notably, humans were able to generate adversarial examples
much more effortlessly than automated attacks. In this paper, we provide a
detailed analysis of exactly how humans create these adversarial examples. By
exploring the behavioural patterns of human workers during the generation
process, we identify statistically significant tendencies based on which words
humans prefer to select for adversarial replacement (e.g., word frequencies,
word saliencies, sentiment) as well as where and when words are replaced in an
input sequence. With our findings, we seek to inspire efforts that harness
human strategies for more robust NLP models.
- Abstract(参考訳): NLPの敵対的な例は研究の注目を集めている。
研究の1行は、自然性と文法性を保持する微調整トランスフォーマーモデルに対する単語レベルの逆例の生成である。
以前の研究では、人間と機械が生成した敵の例はその自然さと文法的正しさに匹敵することがわかった。
とりわけ、人間は自動攻撃よりも敵の例をはるかに簡単に生成することができた。
本稿では, 人間がこれらの逆転例をいかに作り出すか, 正確に分析する。
生成過程における人的労働者の行動パターンを探索することにより、人間が相手の代用(例えば、単語の頻度、単語のサリエンシ、感情)を選ぶ単語と、どの単語が入力シーケンスで置換されるかに基づいて統計的に有意な傾向を識別する。
そこで本研究では,より堅牢なNLPモデルのための人的戦略を活用する取り組みを刺激する。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。
具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。
実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文 参考訳(メタデータ) (2023-09-16T14:04:23Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - A Geometry-Inspired Attack for Generating Natural Language Adversarial
Examples [13.427128424538505]
本稿では,自然言語の逆例を生成するための幾何学的攻撃を提案する。
私たちの攻撃は、いくつかの単語を置き換えながら、高い成功率で自然言語モデルを騙します。
さらなる実験により、敵の訓練は攻撃に対するモデルロバスト性を改善することが示されている。
論文 参考訳(メタデータ) (2020-10-03T12:58:47Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Reevaluating Adversarial Examples in Natural Language [20.14869834829091]
我々は2つの最先端の同義語代用攻撃の出力を分析した。
それらの摂動はしばしば意味論を保存せず、38%が文法的誤りを導入している。
セマンティクスと文法性を改善するために制約が調整されたことにより、攻撃の成功率は70パーセント以上低下する。
論文 参考訳(メタデータ) (2020-04-25T03:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。