論文の概要: BERT is Robust! A Case Against Synonym-Based Adversarial Examples in
Text Classification
- arxiv url: http://arxiv.org/abs/2109.07403v1
- Date: Wed, 15 Sep 2021 16:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 16:39:23.490860
- Title: BERT is Robust! A Case Against Synonym-Based Adversarial Examples in
Text Classification
- Title(参考訳): BERTはロバスト!
テキスト分類における同義語対応事例の1例
- Authors: Jens Hauser, Zhao Meng, Dami\'an Pascual, Roger Wattenhofer
- Abstract要約: BERTに対する4つの単語置換に基づく攻撃について検討する。
彼らの成功は主に、貧弱なデータをモデルに供給することに基づいている。
追加の処理後ステップは、最先端攻撃の成功率を5%以下に下げる。
- 参考スコア(独自算出の注目度): 8.072745157605777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks have taken Natural Language Processing by storm. While
this led to incredible improvements across many tasks, it also initiated a new
research field, questioning the robustness of these neural networks by
attacking them. In this paper, we investigate four word substitution-based
attacks on BERT. We combine a human evaluation of individual word substitutions
and a probabilistic analysis to show that between 96% and 99% of the analyzed
attacks do not preserve semantics, indicating that their success is mainly
based on feeding poor data to the model. To further confirm that, we introduce
an efficient data augmentation procedure and show that many adversarial
examples can be prevented by including data similar to the attacks during
training. An additional post-processing step reduces the success rates of
state-of-the-art attacks below 5%. Finally, by looking at more reasonable
thresholds on constraints for word substitutions, we conclude that BERT is a
lot more robust than research on attacks suggests.
- Abstract(参考訳): ディープニューラルネットワークは、自然言語処理をstormに取り入れている。
これは多くのタスクにまたがって驚くべき改善をもたらしたが、同時に新たな研究分野を開始し、これらのニューラルネットワークを攻撃することによって堅牢性に疑問を投げかけた。
本稿では,BERTに対する4つの単語置換に基づく攻撃について検討する。
個人単語置換の人間による評価と確率論的分析を組み合わせることで、分析された攻撃の96%から99%が意味論を保存していないことを示す。
さらに,本研究は,効率的なデータ拡張手順を導入し,トレーニング中に攻撃に類似したデータを含めることで,多くの逆例を防止できることを示す。
追加の処理ステップは、最先端攻撃の成功率を5%以下にする。
最後に、単語置換の制約に関するより合理的なしきい値を調べることで、BERTは攻撃の研究が示唆するよりもはるかに堅牢である、と結論付ける。
関連論文リスト
- Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation [33.46393193123221]
4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。
我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
論文 参考訳(メタデータ) (2022-03-03T12:32:59Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm [0.5735035463793008]
本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を超越している。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
IMDB上でBERTとBiLSTMを攻撃した場合、最先端の手法よりも100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2021-10-15T12:09:04Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Self-Supervised Contrastive Learning with Adversarial Perturbations for
Robust Pretrained Language Models [18.726529370845256]
本稿では,単語置換に基づく攻撃に対する事前学習型言語モデルBERTの堅牢性を改善する。
また,BERTにおける単語レベルの対人訓練のための対人攻撃も作成する。
論文 参考訳(メタデータ) (2021-07-15T21:03:34Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。