論文の概要: Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm
- arxiv url: http://arxiv.org/abs/2110.08036v1
- Date: Fri, 15 Oct 2021 12:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 20:37:38.052722
- Title: Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm
- Title(参考訳): ビーム探索アルゴリズムの改良による自然言語逆例生成
- Authors: Tengfei Zhao, Zhaocheng Ge, Hanping Hu, Dingmeng Shi
- Abstract要約: 本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を超越している。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
IMDB上でBERTとBiLSTMを攻撃した場合、最先端の手法よりも100%の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The research of adversarial attacks in the text domain attracts many
interests in the last few years, and many methods with a high attack success
rate have been proposed. However, these attack methods are inefficient as they
require lots of queries for the victim model when crafting text adversarial
examples. In this paper, a novel attack model is proposed, its attack success
rate surpasses the benchmark attack methods, but more importantly, its attack
efficiency is much higher than the benchmark attack methods. The novel method
is empirically evaluated by attacking WordCNN, LSTM, BiLSTM, and BERT on four
benchmark datasets. For instance, it achieves a 100\% attack success rate
higher than the state-of-the-art method when attacking BERT and BiLSTM on IMDB,
but the number of queries for the victim models only is 1/4 and 1/6.5 of the
state-of-the-art method, respectively. Also, further experiments show the novel
method has a good transferability on the generated adversarial examples.
- Abstract(参考訳): テキスト領域における敵攻撃の研究は近年,多くの関心を集めており,高い攻撃成功率の手法が提案されている。
しかし、これらの攻撃手法は、テキスト対逆例を作成する際に、犠牲者モデルに対して大量のクエリを必要とするため、非効率である。
本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を上回るが,さらに重要なことは,その攻撃効率がベンチマーク攻撃法よりもはるかに高いことである。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
例えば、IMDB上でBERTとBiLSTMを攻撃したときの攻撃成功率は最先端メソッドよりも100\%高いが、被害者モデルのクエリ数は最先端メソッドの1/4と1/6.5である。
また, 新たな手法は, 生成した逆例に対して良好な伝達性を示すことを示す実験を行った。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Revisiting Character-level Adversarial Attacks for Language Models [53.446619686108754]
本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
論文 参考訳(メタデータ) (2024-05-07T14:23:22Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Sample Attackability in Natural Language Adversarial Attacks [1.4213973379473654]
この研究は、NLP攻撃に対するサンプル攻撃可能性/ロバスト性の定義を正式に拡張した。
2つの人気のあるNLPデータセット、アートモデルの4つの状態、および4つの異なるNLP逆攻撃方法の実験。
論文 参考訳(メタデータ) (2023-06-21T06:20:51Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Boosting Transferability of Targeted Adversarial Examples via
Hierarchical Generative Networks [56.96241557830253]
転送ベースの敵攻撃はブラックボックス設定におけるモデルロバスト性を効果的に評価することができる。
本稿では,異なるクラスを対象にした対角的例を生成する条件生成攻撃モデルを提案する。
提案手法は,既存の手法と比較して,標的となるブラックボックス攻撃の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-05T06:17:47Z) - Adversarial example generation with AdaBelief Optimizer and Crop
Invariance [8.404340557720436]
敵攻撃は、安全クリティカルなアプリケーションにおいて堅牢なモデルを評価し、選択するための重要な方法である。
本稿では,AdaBelief Iterative Fast Gradient Method (ABI-FGM)とCrop-Invariant attack Method (CIM)を提案する。
我々の手法は、最先端の勾配に基づく攻撃法よりも成功率が高い。
論文 参考訳(メタデータ) (2021-02-07T06:00:36Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。