論文の概要: BERT-ATTACK: Adversarial Attack Against BERT Using BERT
- arxiv url: http://arxiv.org/abs/2004.09984v3
- Date: Fri, 2 Oct 2020 03:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:57:48.348342
- Title: BERT-ATTACK: Adversarial Attack Against BERT Using BERT
- Title(参考訳): BERT-ATTACK:BERTを用いたBERT攻撃
- Authors: Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, Xipeng Qiu
- Abstract要約: 離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
- 参考スコア(独自算出の注目度): 77.82947768158132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks for discrete data (such as texts) have been proved
significantly more challenging than continuous data (such as images) since it
is difficult to generate adversarial samples with gradient-based methods.
Current successful attack methods for texts usually adopt heuristic replacement
strategies on the character or word level, which remains challenging to find
the optimal solution in the massive space of possible combinations of
replacements while preserving semantic consistency and language fluency. In
this paper, we propose \textbf{BERT-Attack}, a high-quality and effective
method to generate adversarial samples using pre-trained masked language models
exemplified by BERT. We turn BERT against its fine-tuned models and other deep
neural models in downstream tasks so that we can successfully mislead the
target models to predict incorrectly. Our method outperforms state-of-the-art
attack strategies in both success rate and perturb percentage, while the
generated adversarial samples are fluent and semantically preserved. Also, the
cost of calculation is low, thus possible for large-scale generations. The code
is available at https://github.com/LinyangLee/BERT-Attack.
- Abstract(参考訳): 離散データ(テキストなど)に対する逆攻撃は、勾配に基づく手法で逆データを生成することが困難であるため、連続データ(画像など)よりも著しく困難であることが証明されている。
現在のテキストに対する攻撃手法は、通常、文字や単語レベルでヒューリスティックな置換戦略を採用するが、意味的一貫性と言語流動性を維持しつつ、置換の可能な組み合わせの膨大な空間において最適な解決策を見つけることは困難である。
本稿では, BERT で実証されたマスク付き言語モデルを用いて, 高品質かつ効果的な対人サンプル生成法である \textbf{BERT-Attack} を提案する。
BERTをその微調整されたモデルや、下流タスクの深層ニューラルモデルと比較することで、ターゲットモデルを誤って予測することに成功したのです。
本手法は成功率と摂動率の両方において最先端の攻撃戦略を上回り, 生成した敵のサンプルは流動的かつ意味的に保存される。
また、計算コストは低く、大規模世代でも可能である。
コードはhttps://github.com/LinyangLee/BERT-Attack.comで公開されている。
関連論文リスト
- Microbial Genetic Algorithm-based Black-box Attack against Interpretable
Deep Learning Systems [16.13790238416691]
ホワイトボックス環境では、解釈可能なディープラーニングシステム(IDLS)が悪意のある操作に対して脆弱であることが示されている。
本稿では,IDLSに対するクエリ効率の高いScoreベースのブラックボックス攻撃QuScoreを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:08:52Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Self-Supervised Contrastive Learning with Adversarial Perturbations for
Robust Pretrained Language Models [18.726529370845256]
本稿では,単語置換に基づく攻撃に対する事前学習型言語モデルBERTの堅牢性を改善する。
また,BERTにおける単語レベルの対人訓練のための対人攻撃も作成する。
論文 参考訳(メタデータ) (2021-07-15T21:03:34Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。