論文の概要: Towards Variable-Length Textual Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2104.08139v1
- Date: Fri, 16 Apr 2021 14:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:25:45.691286
- Title: Towards Variable-Length Textual Adversarial Attacks
- Title(参考訳): 可変長テキスト逆襲に向けて
- Authors: Junliang Guo, Zhirui Zhang, Linlin Zhang, Linli Xu, Boxing Chen,
Enhong Chen, Weihua Luo
- Abstract要約: データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
- 参考スコア(独自算出の注目度): 68.27995111870712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks have shown the vulnerability of machine learning models,
however, it is non-trivial to conduct textual adversarial attacks on natural
language processing tasks due to the discreteness of data. Most previous
approaches conduct attacks with the atomic \textit{replacement} operation,
which usually leads to fixed-length adversarial examples and therefore limits
the exploration on the decision space. In this paper, we propose
variable-length textual adversarial attacks~(VL-Attack) and integrate three
atomic operations, namely \textit{insertion}, \textit{deletion} and
\textit{replacement}, into a unified framework, by introducing and manipulating
a special \textit{blank} token while attacking. In this way, our approach is
able to more comprehensively find adversarial examples around the decision
boundary and effectively conduct adversarial attacks. Specifically, our method
drops the accuracy of IMDB classification by $96\%$ with only editing $1.3\%$
tokens while attacking a pre-trained BERT model. In addition, fine-tuning the
victim model with generated adversarial samples can improve the robustness of
the model without hurting the performance, especially for length-sensitive
models. On the task of non-autoregressive machine translation, our method can
achieve $33.18$ BLEU score on IWSLT14 German-English translation, achieving an
improvement of $1.47$ over the baseline model.
- Abstract(参考訳): 敵対的攻撃は機械学習モデルの脆弱性を示しているが、データの離散性のため、自然言語処理タスクに対してテキスト的敵対的攻撃を行うことは自明ではない。
以前のアプローチのほとんどは、アトミックな \textit{replacement} 操作で攻撃を行い、これは通常、固定長の逆例をもたらし、それゆえ決定空間の探索を制限する。
本稿では,攻撃中に特別な \textit{blank}トークンを導入・操作することにより,可変長のテクストアタック~(vl-attack)を提案し,3つのアトミック操作,すなわち \textit{insertion}, \textit{deletion}, \textit{replacement}を統一したフレームワークに統合する。
このようにして、我々のアプローチは、決定境界に関する敵の事例をより包括的に見つけ、効果的に敵の攻撃を行うことができる。
具体的には、トレーニング済みのbertモデルに対して攻撃しながら、トークンを編集するだけでimdb分類の精度を9,6\%$に下げる。
さらに、生成した対向サンプルを用いて被害者モデルを微調整することで、特に長感度モデルにおいて、パフォーマンスを損なうことなくモデルの堅牢性を向上させることができる。
非回帰機械翻訳の課題において、本手法はiwslt14ドイツ語英訳において33.18ドルbleuスコアを達成でき、ベースラインモデルより1.47ドル改善できる。
関連論文リスト
- Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks [10.290050493635343]
敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T20:21:03Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。