論文の概要: The Ultimate Cookbook for Invisible Poison: Crafting Subtle Clean-Label Text Backdoors with Style Attributes
- arxiv url: http://arxiv.org/abs/2504.17300v1
- Date: Thu, 24 Apr 2025 06:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.274897
- Title: The Ultimate Cookbook for Invisible Poison: Crafting Subtle Clean-Label Text Backdoors with Style Attributes
- Title(参考訳): Invisible Poisonの究極のクックブック: クリーニングラベルのテキストバックドアを作ろう
- Authors: Wencong You, Daniel Lowd,
- Abstract要約: 我々は、攻撃を成功させるための重要な基準は、人間には区別できないトリガーを伴い、かつ無意味なテキストであると主張している。
微妙で効果的なトリガー属性を作成するための3つのレシピからなるemphAttrBkdを提案する。
人間による評価では、これらのベースラインに由来する属性を持つAttrBkdは、元のベースラインバックドア攻撃よりも効果的(攻撃の成功率が高い)で、より微妙(人間によって検出される事例が少ない)であることが多い。
- 参考スコア(独自算出の注目度): 15.431085603946775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks on text classifiers can cause them to predict a predefined label when a particular "trigger" is present. Prior attacks often rely on triggers that are ungrammatical or otherwise unusual, leading to conspicuous attacks. As a result, human annotators, who play a critical role in curating training data in practice, can easily detect and filter out these unnatural texts during manual inspection, reducing the risk of such attacks. We argue that a key criterion for a successful attack is for text with and without triggers to be indistinguishable to humans. However, prior work neither directly nor comprehensively evaluated attack subtlety and invisibility with human involvement. We bridge the gap by conducting thorough human evaluations to assess attack subtlety. We also propose \emph{AttrBkd}, consisting of three recipes for crafting subtle yet effective trigger attributes, such as extracting fine-grained attributes from existing baseline backdoor attacks. Our human evaluations find that AttrBkd with these baseline-derived attributes is often more effective (higher attack success rate) and more subtle (fewer instances detected by humans) than the original baseline backdoor attacks, demonstrating that backdoor attacks can bypass detection by being inconspicuous and appearing natural even upon close inspection, while still remaining effective. Our human annotation also provides information not captured by automated metrics used in prior work, and demonstrates the misalignment of these metrics with human judgment.
- Abstract(参考訳): テキスト分類器に対するバックドア攻撃は、特定の「トリガー」が存在するときに事前に定義されたラベルを予測させる。
以前の攻撃は、しばしば文法的でない、あるいは異常なトリガーに依存しており、顕著な攻撃につながる。
その結果、実際にトレーニングデータをキュレートする上で重要な役割を果たすアノテータは、手動検査中にこれらの不自然なテキストを検出・フィルタリングし、そのような攻撃のリスクを低減できる。
我々は、攻撃を成功させるための重要な基準は、人間には区別できないトリガーを伴い、かつ無意味なテキストであると主張している。
しかし、以前の研究は、直接的にも包括的にも、人間の関与に対する攻撃の微妙さや不可視性を評価しなかった。
我々は、攻撃の微妙さを評価するために、人間の徹底的な評価を行うことでギャップを埋める。
また,既存のベースラインバックドア攻撃からきめ細かな属性を抽出するなど,微妙で効果的なトリガー属性を作成するための3つのレシピからなるemph{AttrBkd}を提案する。
我々のヒト評価では、これらのベースライン由来の属性を持つAttrBkdは、元のベースラインバックドア攻撃よりも効果的(攻撃成功率が高い)で、より微妙(人間によって検出される場合が多い)であり、バックドア攻撃は、綿密な検査でも目立たずで自然に現れることによって検出を回避できるが、それでも有効であることを示す。
我々の人間のアノテーションは、事前の作業で使用される自動メトリクスによって捉えられていない情報も提供し、これらのメトリクスを人間の判断で誤調整していることを示す。
関連論文リスト
- Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。