論文の概要: Strategic Sample Selection for Improved Clean-Label Backdoor Attacks in Text Classification
- arxiv url: http://arxiv.org/abs/2508.15934v1
- Date: Thu, 21 Aug 2025 19:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.175668
- Title: Strategic Sample Selection for Improved Clean-Label Backdoor Attacks in Text Classification
- Title(参考訳): テキスト分類におけるクリーンラベルバックドア攻撃の改善のための戦略サンプル選択
- Authors: Onur Alp Kirci, M. Emre Gursoy,
- Abstract要約: クリーンラベルシナリオにおける攻撃効率向上のための3つのサンプル選択手法を提案する。
提案手法は,モデルが誤った又は低い信頼度で予測するサンプルを識別し,そのようなサンプルにバックドアトリガを注入することにより,トリガーパターンと攻撃者が望んだターゲットラベルとのより強い関連性を誘導することを目的とする。
その結果,提案手法はランダムなサンプル選択よりもASRを大幅に改善し,モデルのクリーンな精度をほとんどあるいは全く損なわないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Backdoor attacks pose a significant threat to the integrity of text classification models used in natural language processing. While several dirty-label attacks that achieve high attack success rates (ASR) have been proposed, clean-label attacks are inherently more difficult. In this paper, we propose three sample selection strategies to improve attack effectiveness in clean-label scenarios: Minimum, Above50, and Below50. Our strategies identify those samples which the model predicts incorrectly or with low confidence, and by injecting backdoor triggers into such samples, we aim to induce a stronger association between the trigger patterns and the attacker-desired target label. We apply our methods to clean-label variants of four canonical backdoor attacks (InsertSent, WordInj, StyleBkd, SynBkd) and evaluate them on three datasets (IMDB, SST2, HateSpeech) and four model types (LSTM, BERT, DistilBERT, RoBERTa). Results show that the proposed strategies, particularly the Minimum strategy, significantly improve the ASR over random sample selection with little or no degradation in the model's clean accuracy. Furthermore, clean-label attacks enhanced by our strategies outperform BITE, a state of the art clean-label attack method, in many configurations.
- Abstract(参考訳): バックドア攻撃は、自然言語処理で使用されるテキスト分類モデルの完全性に重大な脅威をもたらす。
高い攻撃成功率(ASR)を達成する汚いラベル攻撃がいくつか提案されているが、クリーンラベル攻撃は本質的には困難である。
本稿では,クリーンラベルシナリオにおける攻撃効果を改善するための3つのサンプル選択手法を提案する。
提案手法は, モデルが誤った又は低い信頼度で予測するサンプルを識別し, バックドアトリガーを注入することにより, トリガーパターンと攻撃者が望んだターゲットラベルとのより強い関連性を誘導することを目的とする。
InsertSent、WordInj、StyleBkd、SynBkdの4つの標準バックドア攻撃をクリーンにラベル付けし、3つのデータセット(IMDB、SST2、HateSpeech)と4つのモデルタイプ(LSTM、BERT、DistilBERT、RoBERTa)で評価する。
結果から,提案手法,特に最小戦略は,ランダムなサンプル選択よりもASRを大幅に改善し,モデルのクリーンな精度をほとんどあるいは全く損なわないことが明らかとなった。
さらに、我々の戦略によって強化されたクリーンラベル攻撃は、多くの構成において最先端のクリーンラベル攻撃手法であるBITEよりも優れている。
関連論文リスト
- Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - Injecting Bias into Text Classification Models using Backdoor Attacks [0.0]
バイアス注入という新たな目的のために,バックドア攻撃を活用することを提案する。
トレーニングデータセットのサブセットが毒され、強い男性アクターと否定的な感情を関連付けるバックドアアタックを開発する。
その結果,バックドアモデルの良性分類精度の低下は限定的であることがわかった。
論文 参考訳(メタデータ) (2024-12-25T19:32:02Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - Stealthy Backdoor Attack via Confidence-driven Sampling [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Triggerless Backdoor Attack for NLP Tasks with Clean Labels [31.308324978194637]
バックドア攻撃で有毒なデータを構築するための標準的な戦略は、選択した文にトリガーを挿入し、元のラベルをターゲットラベルに変更することである。
この戦略は、トリガーとラベルの両方の観点から容易に検出されるという深刻な欠陥を伴っている。
そこで本研究では,外部トリガーを必要としないテキストバックドア攻撃を行う新たな手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T18:36:25Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。