論文の概要: BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2106.01452v1
- Date: Wed, 2 Jun 2021 20:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:21:39.296451
- Title: BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks
- Title(参考訳): BERT-Defense:認知刺激による対人攻撃に対するBERTに基づく確率モデル
- Authors: Yannik Keller, Jan Mackensen, Steffen Eger
- Abstract要約: 敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
- 参考スコア(独自算出の注目度): 10.290050493635343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks expose important blind spots of deep learning systems.
While word- and sentence-level attack scenarios mostly deal with finding
semantic paraphrases of the input that fool NLP models, character-level attacks
typically insert typos into the input stream. It is commonly thought that these
are easier to defend via spelling correction modules. In this work, we show
that both a standard spellchecker and the approach of Pruthi et al. (2019),
which trains to defend against insertions, deletions and swaps, perform poorly
on the character-level benchmark recently proposed in Eger and Benz (2020)
which includes more challenging attacks such as visual and phonetic
perturbations and missing word segmentations. In contrast, we show that an
untrained iterative approach which combines context-independent character-level
information with context-dependent information from BERT's masked language
modeling can perform on par with human crowd-workers from Amazon Mechanical
Turk (AMT) supervised via 3-shot learning.
- Abstract(参考訳): 敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
単語と文レベルの攻撃シナリオは主に、NLPモデルを騙す入力の意味的なパラフレーズを見つけることを扱うが、文字レベルの攻撃は通常、入力ストリームにタイプミスを挿入する。
これらはスペル修正モジュールによって容易に防御できると考えられている。
本研究では,標準スペルチェッカーとPruthi et alのアプローチの両方を示す。
(2019)は、挿入、削除、スワップに対する防御訓練を行い、Eger and Benz (2020)で最近提案された文字レベルのベンチマークでは、視覚的および音声的摂動や単語分割の欠如など、より困難な攻撃を含むパフォーマンスが不十分である。
対照的に、文脈非依存の文字レベル情報とBERTのマスキング言語モデリングの文脈依存情報を組み合わせた非訓練的反復的アプローチは、アマゾン・メカニカル・トルク(AMT)が監督する3ショット・ラーニング(3ショット・ラーニング)による人間の群衆労働者に匹敵する。
関連論文リスト
- Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - From Hero to Z\'eroe: A Benchmark of Low-Level Adversarial Attacks [23.381986209234157]
低レベルの敵攻撃の最初の大規模カタログとベンチマークを提案する。
現在NLPのワークホースであるRoBERTaが攻撃に失敗していることを示す。
我々のデータセットは、将来のより人間らしいNLPモデルの堅牢性をテストするためのベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-12T12:35:36Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Adv-BERT: BERT is not robust on misspellings! Generating nature
adversarial samples on BERT [95.88293021131035]
しかし、悪意のある敵のインスタンスがしばしば存在するのではなく、テクトナチュラルなシナリオでモデルがどのように機能するかは定かではない。
この研究は、NLPにおける最先端のTransformerスタイルモデルであるBERTの、ノイズの多いデータを扱うための頑健さを体系的に探求する。
論文 参考訳(メタデータ) (2020-02-27T22:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。