論文の概要: From Hero to Z\'eroe: A Benchmark of Low-Level Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2010.05648v2
- Date: Wed, 28 Oct 2020 12:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:50:17.757810
- Title: From Hero to Z\'eroe: A Benchmark of Low-Level Adversarial Attacks
- Title(参考訳): HeroからZ\'eroeへ:低レベル敵攻撃のベンチマーク
- Authors: Steffen Eger and Yannik Benz
- Abstract要約: 低レベルの敵攻撃の最初の大規模カタログとベンチマークを提案する。
現在NLPのワークホースであるRoBERTaが攻撃に失敗していることを示す。
我々のデータセットは、将来のより人間らしいNLPモデルの堅牢性をテストするためのベンチマークを提供する。
- 参考スコア(独自算出の注目度): 23.381986209234157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks are label-preserving modifications to inputs of machine
learning classifiers designed to fool machines but not humans. Natural Language
Processing (NLP) has mostly focused on high-level attack scenarios such as
paraphrasing input texts. We argue that these are less realistic in typical
application scenarios such as in social media, and instead focus on low-level
attacks on the character-level. Guided by human cognitive abilities and human
robustness, we propose the first large-scale catalogue and benchmark of
low-level adversarial attacks, which we dub Z\'eroe, encompassing nine
different attack modes including visual and phonetic adversaries. We show that
RoBERTa, NLP's current workhorse, fails on our attacks. Our dataset provides a
benchmark for testing robustness of future more human-like NLP models.
- Abstract(参考訳): 敵攻撃は、機械を騙すために設計されたが人間ではない機械学習分類器の入力に対するラベル保存の修正である。
自然言語処理(NLP)は主に、入力テキストのパラフレーズ化のような高度な攻撃シナリオに焦点を当てている。
ソーシャルメディアのような一般的なアプリケーションシナリオでは現実的ではなく、文字レベルに対する低レベルな攻撃に焦点を当てている、と我々は主張する。
人間の認知能力と人間の堅牢性から導かれ,Z'eroeを疑うような,視覚的および音声的敵対者を含む9つの異なる攻撃モードを含む,最初の大規模対人攻撃のカタログとベンチマークを提案する。
現在NLPのワークホースであるRoBERTaが攻撃に失敗していることを示す。
我々のデータセットは、将来のより人間らしいNLPモデルの堅牢性をテストするためのベンチマークを提供する。
関連論文リスト
- Revisiting character-level adversarial attacks [53.446619686108754]
本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
論文 参考訳(メタデータ) (2024-05-07T14:23:22Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - Adversarial Text Normalization [2.9434930072968584]
逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
論文 参考訳(メタデータ) (2022-06-08T19:44:03Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks [10.290050493635343]
敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T20:21:03Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。