論文の概要: How do humans perceive adversarial text? A reality check on the validity
and naturalness of word-based adversarial attacks
- arxiv url: http://arxiv.org/abs/2305.15587v1
- Date: Wed, 24 May 2023 21:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:32:12.882102
- Title: How do humans perceive adversarial text? A reality check on the validity
and naturalness of word-based adversarial attacks
- Title(参考訳): 人間はどのようにして逆境のテキストを知覚するか?
単語ベースの敵攻撃の有効性と自然性に関する現実チェック
- Authors: Salijona Dyrmishi, Salah Ghamizi, Maxime Cordy
- Abstract要約: 敵対的攻撃は 不正なアルゴリズムだ 入力テキストを不当に修正して モデルに誤った予測をさせる
378人の被験者を対象に,最先端の手法によるテキスト対逆例の知覚可能性について調査した。
以上の結果から,既存のテキスト攻撃は人間が関与する現実のシナリオでは実行不可能であることが示唆された。
- 参考スコア(独自算出の注目度): 4.297786261992324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) models based on Machine Learning (ML) are
susceptible to adversarial attacks -- malicious algorithms that imperceptibly
modify input text to force models into making incorrect predictions. However,
evaluations of these attacks ignore the property of imperceptibility or study
it under limited settings. This entails that adversarial perturbations would
not pass any human quality gate and do not represent real threats to
human-checked NLP systems. To bypass this limitation and enable proper
assessment (and later, improvement) of NLP model robustness, we have surveyed
378 human participants about the perceptibility of text adversarial examples
produced by state-of-the-art methods. Our results underline that existing text
attacks are impractical in real-world scenarios where humans are involved. This
contrasts with previous smaller-scale human studies, which reported overly
optimistic conclusions regarding attack success. Through our work, we hope to
position human perceptibility as a first-class success criterion for text
attacks, and provide guidance for research to build effective attack algorithms
and, in turn, design appropriate defence mechanisms.
- Abstract(参考訳): 機械学習(ML)に基づく自然言語処理(NLP)モデルは、敵対的な攻撃の影響を受けやすい。
しかし、これらの攻撃の評価は、不可避性の性質を無視したり、限られた条件下で研究したりする。
これは、敵対的な摂動が人間の品質ゲートを通り抜けず、人間のチェックしたnlpシステムに対する真の脅威を表現しないことを意味する。
この制限を回避し、NLPモデルロバストネスの適正な評価(および改善)を可能にするため、378人の被験者を対象に、最先端の手法によるテキスト対逆例の知覚可能性について調査を行った。
我々の結果は、人間が関与する現実のシナリオでは、既存のテキスト攻撃は非現実的であることを示している。
これは、攻撃の成功に関する過度に楽観的な結論を報告した以前の小規模人間研究とは対照的である。
我々は本研究を通じて,テキスト攻撃の第一級成功基準として人間の認識能力を位置づけ,効果的な攻撃アルゴリズムを構築するための研究のためのガイダンスを提供し,適切な防御機構を設計することを期待している。
関連論文リスト
- Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Perturbations in the Wild: Leveraging Human-Written Text Perturbations
for Realistic Adversarial Attack and Defense [19.76930957323042]
ANTHROは、野生で600万以上の人間が書いたテキストの摂動を誘導的に抽出し、それらを現実的な敵攻撃に活用する。
本研究では,(1)攻撃成功率,(2)原文の意味的保存,(3)人文と区別できないステルスネスのトレードオフを,AnTHROが生成した敵対的テキストが達成できることを見出した。
論文 参考訳(メタデータ) (2022-03-19T16:00:01Z) - Adversarial Robustness of Neural-Statistical Features in Detection of
Generative Transformers [6.209131728799896]
コンピュータ生成テキストの検出能力に対するニューラルおよび非ニューラルアプローチの評価を行った。
統計学的特徴は神経的特徴に劣るが, 統計学的特徴は追加の対向的堅牢性をもたらす。
我々は,逆テキスト品質の人的判断のための代用尺度として$Delta$MAUVEを考案した。
論文 参考訳(メタデータ) (2022-03-02T16:46:39Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Perceptual Adversarial Robustness: Defense Against Unseen Threat Models [58.47179090632039]
敵対的堅牢性の鍵となる課題は、人間の知覚を正確に数学的に特徴づけることの欠如である。
ニューラル・パーセプチュアル・脅威モデルの下で、我々は新しいパーセプチュアル・アタックとディフェンスを開発する。
NPTMは非常に広範であるため、知覚的攻撃に対する知覚的適応訓練(PAT)は、他の多くの種類の敵対的攻撃に対して堅牢性を与える。
論文 参考訳(メタデータ) (2020-06-22T22:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。