論文の概要: Adversarial Clean Label Backdoor Attacks and Defenses on Text
Classification Systems
- arxiv url: http://arxiv.org/abs/2305.19607v1
- Date: Wed, 31 May 2023 07:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:59:32.498210
- Title: Adversarial Clean Label Backdoor Attacks and Defenses on Text
Classification Systems
- Title(参考訳): テキスト分類システムにおけるラベルのクリーンなバックドア攻撃と防御
- Authors: Ashim Gupta, Amrith Krishna
- Abstract要約: クリーンラベル(CL)攻撃はNLPでは比較的未発見である。
CLアタックはラベルフリップ(LF)アタックよりもデータサニタイズや手動のレバリング手法に耐性がある。
敵がCL攻撃のデータ要求を20%以下に抑えることができることを示す。
- 参考スコア(独自算出の注目度): 23.201773332458693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clean-label (CL) attack is a form of data poisoning attack where an adversary
modifies only the textual input of the training data, without requiring access
to the labeling function. CL attacks are relatively unexplored in NLP, as
compared to label flipping (LF) attacks, where the latter additionally requires
access to the labeling function as well. While CL attacks are more resilient to
data sanitization and manual relabeling methods than LF attacks, they often
demand as high as ten times the poisoning budget than LF attacks. In this work,
we first introduce an Adversarial Clean Label attack which can adversarially
perturb in-class training examples for poisoning the training set. We then show
that an adversary can significantly bring down the data requirements for a CL
attack, using the aforementioned approach, to as low as 20% of the data
otherwise required. We then systematically benchmark and analyze a number of
defense methods, for both LF and CL attacks, some previously employed solely
for LF attacks in the textual domain and others adapted from computer vision.
We find that text-specific defenses greatly vary in their effectiveness
depending on their properties.
- Abstract(参考訳): クリーンラベル攻撃(clean-label attack)は、学習データのテキスト入力のみを、ラベル機能へのアクセスを必要とせずに修飾する、データ中毒攻撃の一形態である。
clアタックはラベルフリップ(lf)アタックと比べ、nlpでは比較的未解決であり、後者ではラベリング機能へのアクセスも必要となる。
clアタックはlfアタックよりもデータサニタイズや手作業によるリラベル化に耐性があるが、lfアタックよりも10倍の有毒予算を要求することが多い。
そこで本研究では,まず,トレーニングセットに毒を盛る際のクラス内トレーニング例を逆向きに摂動できる,逆行性クリーンラベル攻撃を導入する。
次に、逆境がcl攻撃に対するデータ要求を著しく削減し、前述のアプローチを用いて、必要なデータの20%程度に抑えることができることを示す。
lf攻撃とcl攻撃の両方に対して,これまではテキスト領域のlf攻撃のみに使用されていたものや,コンピュータビジョンから適応したものなど,多くの防御手法を体系的にベンチマークし,分析した。
テキスト固有の防御効果は,その特性によって大きく異なることがわかった。
関連論文リスト
- FCert: Certifiably Robust Few-Shot Classification in the Era of Foundation Models [38.019489232264796]
FCertは、データ中毒攻撃に対する最初の認証された防御法であり、数発の分類である。
1)攻撃なしでの分類精度を維持すること,2)データ中毒攻撃に対する既存の認証された防御能力を上回ること,3)効率的で汎用的なこと,である。
論文 参考訳(メタデータ) (2024-04-12T17:50:40Z) - Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Fast Adversarial Label-Flipping Attack on Tabular Data [4.4989885299224515]
ラベルフリップ攻撃では、敵はトレーニングラベルの一部を不正に反転させ、機械学習モデルを侵害する。
本稿では,これらの攻撃が解き易い分類問題として,高度に歪んだデータセットをカモフラージュできるという重要な懸念を提起する。
敵ラベル作成に有効な新たな攻撃手法であるFALFAを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:20:44Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Label-Only Membership Inference Attacks [67.46072950620247]
ラベルのみのメンバシップ推論攻撃を導入する。
我々の攻撃は、摂動下でのモデルが予測するラベルの堅牢性を評価する。
差分プライバシーと(強い)L2正規化を備えたトレーニングモデルは、唯一知られている防衛戦略である。
論文 参考訳(メタデータ) (2020-07-28T15:44:31Z) - Headless Horseman: Adversarial Attacks on Transfer Learning Models [69.13927986055553]
我々はそのような分類器に対する移動可能な敵攻撃のファミリーを提示する。
まず,テキストのみの特徴抽出器を用いて,被害者ネットワークへの転送攻撃に成功した。
これはラベルブラインド敵攻撃の導入を動機付けている。
我々の攻撃は、CIFAR10でトレーニングされたResNet18の精度を40%以上下げる。
論文 参考訳(メタデータ) (2020-04-20T01:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。