論文の概要: Character-level White-Box Adversarial Attacks against Transformers via
Attachable Subwords Substitution
- arxiv url: http://arxiv.org/abs/2210.17004v1
- Date: Mon, 31 Oct 2022 01:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:09:24.067922
- Title: Character-level White-Box Adversarial Attacks against Transformers via
Attachable Subwords Substitution
- Title(参考訳): 副語置換による変圧器に対する文字レベルホワイトボックス攻撃
- Authors: Aiwei Liu, Honghai Yu, Xuming Hu, Shu'ang Li, Li Lin, Fukun Ma, Yawen
Yang, Lijie Wen
- Abstract要約: トランスモデルに対する最初の文字レベルホワイトボックス対逆攻撃法を提案する。
我々の手法の直感は、単語が変圧器モデルに入力される前にサブトークンに分割されるという観察から来ています。
- 参考スコア(独自算出の注目度): 10.416613287336082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the first character-level white-box adversarial attack method
against transformer models. The intuition of our method comes from the
observation that words are split into subtokens before being fed into the
transformer models and the substitution between two close subtokens has a
similar effect to the character modification. Our method mainly contains three
steps. First, a gradient-based method is adopted to find the most vulnerable
words in the sentence. Then we split the selected words into subtokens to
replace the origin tokenization result from the transformer tokenizer. Finally,
we utilize an adversarial loss to guide the substitution of attachable
subtokens in which the Gumbel-softmax trick is introduced to ensure gradient
propagation. Meanwhile, we introduce the visual and length constraint in the
optimization process to achieve minimum character modifications. Extensive
experiments on both sentence-level and token-level tasks demonstrate that our
method could outperform the previous attack methods in terms of success rate
and edit distance. Furthermore, human evaluation verifies our adversarial
examples could preserve their origin labels.
- Abstract(参考訳): トランスフォーマーモデルに対する最初の文字レベルホワイトボックス攻撃法を提案する。
本手法の直観は, 単語をトランスフォーマモデルに流す前にサブトケンに分割し, 2つの近接サブトケン間の置換がキャラクタ修飾に類似した効果を持つという観察から得られた。
本手法は主に3つのステップを含む。
まず、文中の最も脆弱な単語を見つけるために勾配に基づく手法を採用する。
次に,選択した単語をサブトークンに分割し,トランスフォーマーのトークン化結果を置き換える。
最後に,Gumbel-softmax の手法を導入して勾配伝播を確実にするアタッチ可能なサブトークンの置換を誘導するために,逆損失を利用する。
一方,最小文字修正を実現するため,最適化プロセスにおいて視覚と長さの制約を導入する。
文レベルのタスクとトークンレベルのタスクの両方について広範な実験を行った結果,提案手法が従来の攻撃手法よりも成功率と編集距離の点で優れていた。
さらに、人間の評価は、我々の敵の例が原産地のラベルを保存できることを検証する。
関連論文リスト
- SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - Sampling-based Fast Gradient Rescaling Method for Highly Transferable
Adversarial Attacks [18.05924632169541]
サンプリングに基づく高速勾配再スケーリング法(S-FGRM)を提案する。
具体的には、余分な計算コストを伴わずに手話関数を置換するためにデータ再スケーリングを用いる。
本手法は, 勾配に基づく攻撃の伝達可能性を大幅に向上させ, 最先端のベースラインより優れる可能性がある。
論文 参考訳(メタデータ) (2023-07-06T07:52:42Z) - Sampling-based Fast Gradient Rescaling Method for Highly Transferable
Adversarial Attacks [19.917677500613788]
勾配ベースのアプローチは一般的に、プロセスの最後に摂動を生成するために$sign$関数を使用する。
そこで本研究では,S-FGRM(Saming-based Fast Gradient Rescaling Method)を提案する。
論文 参考訳(メタデータ) (2022-04-06T15:12:20Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Transferable Sparse Adversarial Attack [62.134905824604104]
オーバーフィッティング問題を緩和するジェネレータアーキテクチャを導入し、転送可能なスパース対逆例を効率的に作成する。
提案手法は,他の最適化手法よりも700$times$高速な推論速度を実現する。
論文 参考訳(メタデータ) (2021-05-31T06:44:58Z) - Staircase Sign Method for Boosting Adversarial Attacks [123.19227129979943]
トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
そこで本研究では,この問題を緩和するための新しい階段サイン法(S$2$M)を提案する。
我々の手法は一般に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2021-04-20T02:31:55Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Gradient-based Adversarial Attacks against Text Transformers [96.73493433809419]
トランスモデルに対する初の汎用勾配攻撃を提案する。
我々は、ホワイトボックス攻撃が様々な自然言語タスクにおいて最先端の攻撃性能を達成することを実証的に実証する。
論文 参考訳(メタデータ) (2021-04-15T17:43:43Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。