論文の概要: Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers
- arxiv url: http://arxiv.org/abs/2401.17196v1
- Date: Tue, 30 Jan 2024 17:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:53:51.321663
- Title: Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers
- Title(参考訳): テキスト分類器のアタックとディフェンスをデザインする「Single Word Change」
- Authors: Lei Xu, Sarah Alnegheimish, Laure Berti-Equille, Alfredo
Cuesta-Infante, Kalyan Veeramachaneni
- Abstract要約: 既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
- 参考スコア(独自算出の注目度): 12.167426402230229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text classification, creating an adversarial example means subtly
perturbing a few words in a sentence without changing its meaning, causing it
to be misclassified by a classifier. A concerning observation is that a
significant portion of adversarial examples generated by existing methods
change only one word. This single-word perturbation vulnerability represents a
significant weakness in classifiers, which malicious users can exploit to
efficiently create a multitude of adversarial examples. This paper studies this
problem and makes the following key contributions: (1) We introduce a novel
metric \r{ho} to quantitatively assess a classifier's robustness against
single-word perturbation. (2) We present the SP-Attack, designed to exploit the
single-word perturbation vulnerability, achieving a higher attack success rate,
better preserving sentence meaning, while reducing computation costs compared
to state-of-the-art adversarial methods. (3) We propose SP-Defense, which aims
to improve \r{ho} by applying data augmentation in learning. Experimental
results on 4 datasets and BERT and distilBERT classifiers show that SP-Defense
improves \r{ho} by 14.6% and 13.9% and decreases the attack success rate of
SP-Attack by 30.4% and 21.2% on two classifiers respectively, and decreases the
attack success rate of existing attack methods that involve multiple-word
perturbations.
- Abstract(参考訳): テキスト分類では、逆例を作成することは、意味を変えずに文中のいくつかの単語を微妙に摂動することであり、分類器によって誤分類される。
既存の手法が生み出す敵の例のかなりの部分が1つの単語だけに変化している。
このシングルワードの摂動脆弱性は、悪意のあるユーザーが効果的に多くの敵の例を作成することができる分類器の重大な弱点である。
本稿では,この問題を考察し,(1)単一単語摂動に対する分類器の頑健さを定量的に評価する新しい指標であるr{ho}を導入する。
2)SP-Attackは,1ワードの摂動脆弱性を利用して,攻撃の成功率の向上,文の意味の保存を図り,また,最先端の敵法に比べて計算コストの低減を図る。
3) 学習にデータ拡張を適用することで, \r{ho}を改善することを目的としたsp防御を提案する。
4 つのデータセットと BERT と distilBERT 分類器の実験結果から、SP-Defense は \r{ho} を 14.6% と 13.9% 改善し、2 つの分類器でそれぞれ SP-Attack の攻撃成功率を 30.4% と 21.2% 削減し、複数ワードの摂動を含む既存の攻撃方法の攻撃成功率を低下させる。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Adversarial Text Purification: A Large Language Model Approach for
Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文 参考訳(メタデータ) (2024-02-05T02:36:41Z) - Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by
Rewriting Text [40.491180210205556]
我々は、敵入力をインターセプトし、非敵入力に書き換えるモデルATINTERを提案する。
実験の結果,ATINTERは既存の防御手法よりも優れた敵の堅牢性を提供するのに有効であることが判明した。
論文 参考訳(メタデータ) (2023-05-25T19:42:51Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks [2.512827436728378]
ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-05-03T18:24:20Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。