論文の概要: LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack
- arxiv url: http://arxiv.org/abs/2308.00319v2
- Date: Wed, 10 Jan 2024 13:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 17:15:44.334305
- Title: LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack
- Title(参考訳): LimeAttack: テキスト・ラベル・アタックのための局所的説明可能な方法
- Authors: Hai Zhu and Zhaoqing Yang and Weiwei Shang and Yuren Wu
- Abstract要約: 本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
- 参考スコア(独自算出の注目度): 3.410883081705873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing models are vulnerable to adversarial examples.
Previous textual adversarial attacks adopt gradients or confidence scores to
calculate word importance ranking and generate adversarial examples. However,
this information is unavailable in the real world. Therefore, we focus on a
more realistic and challenging setting, named hard-label attack, in which the
attacker can only query the model and obtain a discrete prediction label.
Existing hard-label attack algorithms tend to initialize adversarial examples
by random substitution and then utilize complex heuristic algorithms to
optimize the adversarial perturbation. These methods require a lot of model
queries and the attack success rate is restricted by adversary initialization.
In this paper, we propose a novel hard-label attack algorithm named LimeAttack,
which leverages a local explainable method to approximate word importance
ranking, and then adopts beam search to find the optimal solution. Extensive
experiments show that LimeAttack achieves the better attacking performance
compared with existing hard-label attack under the same query budget. In
addition, we evaluate the effectiveness of LimeAttack on large language models,
and results indicate that adversarial examples remain a significant threat to
large language models. The adversarial examples crafted by LimeAttack are
highly transferable and effectively improve model robustness in adversarial
training.
- Abstract(参考訳): 自然言語処理モデルは、逆の例に弱い。
以前のテキストによる敵意攻撃では、単語重要度ランキングを計算し、敵意の例を生成するために、勾配や信頼度スコアが採用されている。
しかし、この情報は現実世界では利用できない。
そこで我々は,より現実的で困難なハードラベル攻撃に着目し,攻撃者がモデルに問い合わせるだけで,個別の予測ラベルを得られるようにした。
既存のハードラベル攻撃アルゴリズムは、ランダムな置換によって敵の例を初期化し、複雑なヒューリスティックアルゴリズムを用いて敵の摂動を最適化する傾向にある。
これらのメソッドは大量のモデルクエリを必要とし、攻撃成功率は逆初期化によって制限される。
本稿では,局所的説明可能な手法を用いて単語重要度ランキングを近似し,ビーム探索を用いて最適な解を求める,新しいハードラベル攻撃アルゴリズムであるlimeattackを提案する。
大規模な実験では、LimeAttackは同じクエリ予算で既存のハードラベル攻撃と比較して、攻撃性能が向上している。
さらに,LimeAttackの大規模言語モデルに対する有効性を評価し,大言語モデルに対する敵対的な例が依然として重大な脅威であることを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
関連論文リスト
- BeamAttack: Generating High-quality Textual Adversarial Examples through
Beam Search and Mixed Semantic Spaces [3.8029070240258678]
敵対的な例は 人間の読者には受け入れられません
ブラックボックスの設定では、攻撃者はモデルのパラメータやアーキテクチャを知ることなくモデルを騙すことができる。
本研究では,混合意味空間と改良されたビームサーチを利用したテキスト攻撃アルゴリズムであるビームアタックを提案する。
論文 参考訳(メタデータ) (2023-03-09T03:30:52Z) - A Word is Worth A Thousand Dollars: Adversarial Attack on Tweets Fools
Stock Prediction [100.9772316028191]
本稿では,3つのストック予測犠牲者モデルを騙すために,様々な攻撃構成を試行する。
以上の結果から,提案手法が一貫した成功率を達成し,取引シミュレーションにおいて大きな損失をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-01T05:12:22Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Poisoning Attack against Estimating from Pairwise Comparisons [140.9033911097995]
攻撃者はランクリストを操作するための強い動機と動機を持っている。
ペアワイズランキングアルゴリズムに対するデータ中毒攻撃は、ローダとアタッカーの間の動的および静的ゲームとして形式化することができる。
本稿では、2つの効率的な毒殺攻撃アルゴリズムを提案し、関連する理論的保証を確立する。
論文 参考訳(メタデータ) (2021-07-05T08:16:01Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。