論文の概要: Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers
- arxiv url: http://arxiv.org/abs/2203.05948v1
- Date: Fri, 11 Mar 2022 14:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 12:27:11.015599
- Title: Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers
- Title(参考訳): トランスフォーマーに基づくテキスト分類器に対するブロックスパース逆攻撃
- Authors: Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard
- Abstract要約: 本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
- 参考スコア(独自算出の注目度): 49.50163349643615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, it has been shown that, in spite of the significant performance of
deep neural networks in different fields, those are vulnerable to adversarial
examples. In this paper, we propose a gradient-based adversarial attack against
transformer-based text classifiers. The adversarial perturbation in our method
is imposed to be block-sparse so that the resultant adversarial example differs
from the original sentence in only a few words. Due to the discrete nature of
textual data, we perform gradient projection to find the minimizer of our
proposed optimization problem. Experimental results demonstrate that, while our
adversarial attack maintains the semantics of the sentence, it can reduce the
accuracy of GPT-2 to less than 5% on different datasets (AG News, MNLI, and
Yelp Reviews). Furthermore, the block-sparsity constraint of the proposed
optimization problem results in small perturbations in the adversarial example.
- Abstract(参考訳): 近年、異なる分野におけるディープニューラルネットワークの著しいパフォーマンスにもかかわらず、これらが敵対的な例に弱いことが示されている。
本稿では,変換器に基づくテキスト分類器に対する勾配に基づく逆攻撃を提案する。
本手法の逆摂動はブロックスパースに課され, 結果として得られる逆摂動例は, わずか数語で原文と異なる。
テキストデータの離散的な性質から,提案した最適化問題の最小化のために勾配予測を行う。
実験結果から, 文のセマンティクスを維持しながら, GPT-2の精度を異なるデータセット(AG News, MNLI, Yelp Reviews)で5%未満に低下させることができることがわかった。
さらに,提案した最適化問題のブロックスパーシティ制約は,逆数例の小さな摂動をもたらす。
関連論文リスト
- A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers [10.063169009242682]
逆例を生成するために,エンコーダ-デコーダパラフレーズモデルを訓練する。
我々は強化学習アルゴリズムを採用し、制約付き報酬を提案する。
提案手法の主な設計選択が生成した例にどのように影響するかを示し,提案手法の長所と短所について議論する。
論文 参考訳(メタデータ) (2024-05-20T09:33:43Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers [12.167426402230229]
既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
論文 参考訳(メタデータ) (2024-01-30T17:30:44Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Transferable Sparse Adversarial Attack [62.134905824604104]
オーバーフィッティング問題を緩和するジェネレータアーキテクチャを導入し、転送可能なスパース対逆例を効率的に作成する。
提案手法は,他の最適化手法よりも700$times$高速な推論速度を実現する。
論文 参考訳(メタデータ) (2021-05-31T06:44:58Z) - Improving Transformation-based Defenses against Adversarial Examples
with First-order Perturbations [16.346349209014182]
研究によると、ニューラルネットワークは敵の攻撃を受けやすい。
これにより、ニューラルネットワークベースのインテリジェントシステムに対する潜在的な脅威が露呈する。
本稿では, 対向性強靭性を改善するために, 対向性摂動に対処する手法を提案する。
論文 参考訳(メタデータ) (2021-03-08T06:27:24Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。