論文の概要: Single Word Change is All You Need: Using LLMs to Create Synthetic Training Examples for Text Classifiers
- arxiv url: http://arxiv.org/abs/2401.17196v3
- Date: Sat, 12 Jul 2025 20:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 12:29:47.521307
- Title: Single Word Change is All You Need: Using LLMs to Create Synthetic Training Examples for Text Classifiers
- Title(参考訳): LLMを使ってテキスト分類器の合成学習例を作成する
- Authors: Lei Xu, Sarah Alnegheimish, Laure Berti-Equille, Alfredo Cuesta-Infante, Kalyan Veeramachaneni,
- Abstract要約: 既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
- 参考スコア(独自算出の注目度): 11.341261395056561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text classification, creating an adversarial example means subtly perturbing a few words in a sentence without changing its meaning, causing it to be misclassified by a classifier. A concerning observation is that a significant portion of adversarial examples generated by existing methods change only one word. This single-word perturbation vulnerability represents a significant weakness in classifiers, which malicious users can exploit to efficiently create a multitude of adversarial examples. This paper studies this problem and makes the following key contributions: (1) We introduce a novel metric $\rho$ to quantitatively assess a classifier's robustness against single-word perturbation. (2) We present the SP-Attack, designed to exploit the single-word perturbation vulnerability, achieving a higher attack success rate, better preserving sentence meaning, while reducing computation costs compared to state-of-the-art adversarial methods. (3) We propose SP-Defense, which aims to improve \r{ho} by applying data augmentation in learning. Experimental results on 4 datasets and BERT and distilBERT classifiers show that SP-Defense improves $\rho$ by 14.6% and 13.9% and decreases the attack success rate of SP-Attack by 30.4% and 21.2% on two classifiers respectively, and decreases the attack success rate of existing attack methods that involve multiple-word perturbations.
- Abstract(参考訳): テキスト分類では、逆例を作成することは、意味を変えずに文中のいくつかの単語を微妙に摂動することであり、分類器によって誤分類される。
既存の手法が生み出す敵の例のかなりの部分が1つの単語だけを変えている点が注目点である。
このシングルワードの摂動脆弱性は、悪意のあるユーザーが多数の敵の例を効率的に作成するために活用できる分類器の重大な弱点である。
本稿では,この問題を考察し,(1)単一単語摂動に対する分類器の頑健さを定量的に評価するための新しい指標である$\rho$を導入する。
2)SP-Attackは,1ワードの摂動脆弱性を利用して,攻撃の成功率の向上,文の意味の保存を図り,また,最先端の敵法に比べて計算コストの低減を実現している。
(3)SP-Defenseは,学習にデータ拡張を適用することにより,r{ho}を改善することを目的としている。
4つのデータセットとBERTおよび distilBERT分類器の実験結果から、SP-Defenseは$\rho$を14.6%、13.9%改善し、2つの分類器でSP-Attackの攻撃成功率を30.4%、21.2%低減し、複数ワードの摂動を含む既存の攻撃方法の攻撃成功率を低下させることが示された。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Adversarial Text Purification: A Large Language Model Approach for
Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文 参考訳(メタデータ) (2024-02-05T02:36:41Z) - Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by
Rewriting Text [40.491180210205556]
我々は、敵入力をインターセプトし、非敵入力に書き換えるモデルATINTERを提案する。
実験の結果,ATINTERは既存の防御手法よりも優れた敵の堅牢性を提供するのに有効であることが判明した。
論文 参考訳(メタデータ) (2023-05-25T19:42:51Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks [2.512827436728378]
ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-05-03T18:24:20Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Robust Textual Embedding against Word-level Adversarial Attacks [15.235449552083043]
我々は、FTML(Fast Triplet Metric Learning)と呼ばれる新しい堅牢なトレーニング手法を提案する。
FTMLは, 様々な先進攻撃に対して, モデルロバスト性を著しく向上させることができることを示す。
我々の研究は、ロバストな単語埋め込みによってテキストの堅牢性を改善する大きな可能性を示している。
論文 参考訳(メタデータ) (2022-02-28T14:25:00Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Rewriting Meaningful Sentences via Conditional BERT Sampling and an
application on fooling text classifiers [11.49508308643065]
テキスト分類器を欺くように設計された敵攻撃法は、いくつかの単語や文字を変更することで、テキスト分類器の予測を変更する。
文レベルの言い直しに固有の難しさや、正統な書き直し基準を設定することの難しさから、文全体を書き換えて分類子を攻撃しようとする者はほとんどいない。
本稿では,文レベルの書き換えによる逆例作成の問題について検討する。
我々は文レベルの脅威モデルと呼ばれる新しい修正基準を提案し、この基準は単語レベルの変更と文レベルの変更の両方を可能にし、意味的類似性と2つの次元で独立に調整できる。
論文 参考訳(メタデータ) (2020-10-22T17:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。