論文の概要: Revisiting character-level adversarial attacks
- arxiv url: http://arxiv.org/abs/2405.04346v1
- Date: Tue, 7 May 2024 14:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:50:50.385344
- Title: Revisiting character-level adversarial attacks
- Title(参考訳): キャラクターレベルの敵攻撃の再検討
- Authors: Elias Abad Rocamora, Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher,
- Abstract要約: 本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
- 参考スコア(独自算出の注目度): 53.446619686108754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks in Natural Language Processing apply perturbations in the character or token levels. Token-level attacks, gaining prominence for their use of gradient-based methods, are susceptible to altering sentence semantics, leading to invalid adversarial examples. While character-level attacks easily maintain semantics, they have received less attention as they cannot easily adopt popular gradient-based methods, and are thought to be easy to defend. Challenging these beliefs, we introduce Charmer, an efficient query-based adversarial attack capable of achieving high attack success rate (ASR) while generating highly similar adversarial examples. Our method successfully targets both small (BERT) and large (Llama 2) models. Specifically, on BERT with SST-2, Charmer improves the ASR in 4.84% points and the USE similarity in 8% points with respect to the previous art. Our implementation is available in https://github.com/LIONS-EPFL/Charmer.
- Abstract(参考訳): 自然言語処理における敵対的攻撃は、文字やトークンのレベルに摂動を適用します。
勾配に基づく手法の使用で注目されるトークンレベルの攻撃は、文のセマンティクスの変更の影響を受けやすいため、無効な敵の例に繋がる。
文字レベルの攻撃はセマンティクスを容易に維持するが、一般的な勾配に基づく手法を採用できないため注意が低く、防御が容易であると考えられている。
これらの信念に則り、高い攻撃成功率(ASR)を達成できる効率的なクエリベースの敵攻撃であるCharmerを導入し、非常に類似した敵の例を生成する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
具体的には、SST-2のBERTでは、CharmerはASRを4.84%で改善し、USEは8%で以前の技術と類似している。
我々の実装はhttps://github.com/LIONS-EPFL/Charmer.comで利用可能です。
関連論文リスト
- Target-driven Attack for Large Language Models [14.784132523066567]
クリーンテキストと攻撃テキストの条件付き確率のKL差を最大化するターゲット駆動型ブラックボックス攻撃法を提案する。
複数の大規模言語モデルとデータセットの実験結果から,攻撃手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-09T15:59:59Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack [3.410883081705873]
本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
論文 参考訳(メタデータ) (2023-08-01T06:30:37Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making [10.425483543802846]
敵攻撃タスクは、事前訓練された言語モデル(PLM)が小さな摂動に弱いことを発見した。
本稿では, PLM に対する逆攻撃タスクを逐次決定問題としてモデル化する。
そこで本稿では,SDM-Attack と呼ばれる敵を発生させる適切な逐次攻撃経路を見つけるための強化学習を提案する。
論文 参考訳(メタデータ) (2023-05-27T10:33:53Z) - Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face
Recognition [111.1952945740271]
Adv-Attribute (Adv-Attribute) は、顔認証に対する不明瞭で伝達可能な攻撃を生成するように設計されている。
FFHQとCelebA-HQデータセットの実験は、提案されたAdv-Attributeメソッドが最先端の攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2022-10-13T09:56:36Z) - Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm [0.5735035463793008]
本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を超越している。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
IMDB上でBERTとBiLSTMを攻撃した場合、最先端の手法よりも100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2021-10-15T12:09:04Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。