論文の概要: Revisiting Character-level Adversarial Attacks for Language Models
- arxiv url: http://arxiv.org/abs/2405.04346v2
- Date: Wed, 4 Sep 2024 15:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:12:50.053196
- Title: Revisiting Character-level Adversarial Attacks for Language Models
- Title(参考訳): 言語モデルにおける文字レベルの逆攻撃の再検討
- Authors: Elias Abad Rocamora, Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher,
- Abstract要約: 本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
- 参考スコア(独自算出の注目度): 53.446619686108754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks in Natural Language Processing apply perturbations in the character or token levels. Token-level attacks, gaining prominence for their use of gradient-based methods, are susceptible to altering sentence semantics, leading to invalid adversarial examples. While character-level attacks easily maintain semantics, they have received less attention as they cannot easily adopt popular gradient-based methods, and are thought to be easy to defend. Challenging these beliefs, we introduce Charmer, an efficient query-based adversarial attack capable of achieving high attack success rate (ASR) while generating highly similar adversarial examples. Our method successfully targets both small (BERT) and large (Llama 2) models. Specifically, on BERT with SST-2, Charmer improves the ASR in 4.84% points and the USE similarity in 8% points with respect to the previous art. Our implementation is available in https://github.com/LIONS-EPFL/Charmer.
- Abstract(参考訳): 自然言語処理における敵対的攻撃は、文字やトークンのレベルに摂動を適用します。
勾配に基づく手法の使用で注目されるトークンレベルの攻撃は、文のセマンティクスの変更の影響を受けやすいため、無効な敵の例に繋がる。
文字レベルの攻撃はセマンティクスを容易に維持するが、一般的な勾配に基づく手法を採用できないため注意が低く、防御が容易であると考えられている。
これらの信念に則り、高い攻撃成功率(ASR)を達成できる効率的なクエリベースの敵攻撃であるCharmerを導入し、非常に類似した敵の例を生成する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
具体的には、SST-2のBERTでは、CharmerはASRを4.84%で改善し、USEは8%で以前の技術と類似している。
我々の実装はhttps://github.com/LIONS-EPFL/Charmer.comで利用可能です。
関連論文リスト
- OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack [3.410883081705873]
本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
論文 参考訳(メタデータ) (2023-08-01T06:30:37Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm [0.5735035463793008]
本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を超越している。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
IMDB上でBERTとBiLSTMを攻撃した場合、最先端の手法よりも100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2021-10-15T12:09:04Z) - Staircase Sign Method for Boosting Adversarial Attacks [123.19227129979943]
トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
そこで本研究では,この問題を緩和するための新しい階段サイン法(S$2$M)を提案する。
我々の手法は一般に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2021-04-20T02:31:55Z) - Patch-wise++ Perturbation for Adversarial Targeted Attacks [132.58673733817838]
トランスファビリティの高い対比例の作成を目的としたパッチワイズ反復法(PIM)を提案する。
具体的には、各イテレーションのステップサイズに増幅係数を導入し、$epsilon$-constraintをオーバーフローする1ピクセルの全体的な勾配が、その周辺領域に適切に割り当てられる。
現在の攻撃方法と比較して、防御モデルでは35.9%、通常訓練されたモデルでは32.7%、成功率を大幅に向上させた。
論文 参考訳(メタデータ) (2020-12-31T08:40:42Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。