論文の概要: Poisoned classifiers are not only backdoored, they are fundamentally
broken
- arxiv url: http://arxiv.org/abs/2010.09080v2
- Date: Tue, 5 Oct 2021 09:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:43:23.789704
- Title: Poisoned classifiers are not only backdoored, they are fundamentally
broken
- Title(参考訳): 毒付きの分類器はバックドアだけでなく 基本的に壊れています
- Authors: Mingjie Sun, Siddhant Agarwal, J. Zico Kolter
- Abstract要約: 一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
- 参考スコア(独自算出の注目度): 84.67778403778442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Under a commonly-studied backdoor poisoning attack against classification
models, an attacker adds a small trigger to a subset of the training data, such
that the presence of this trigger at test time causes the classifier to always
predict some target class. It is often implicitly assumed that the poisoned
classifier is vulnerable exclusively to the adversary who possesses the
trigger. In this paper, we show empirically that this view of backdoored
classifiers is incorrect. We describe a new threat model for poisoned
classifier, where one without knowledge of the original trigger, would want to
control the poisoned classifier. Under this threat model, we propose a
test-time, human-in-the-loop attack method to generate multiple effective
alternative triggers without access to the initial backdoor and the training
data. We construct these alternative triggers by first generating adversarial
examples for a smoothed version of the classifier, created with a procedure
called Denoised Smoothing, and then extracting colors or cropped portions of
smoothed adversarial images with human interaction. We demonstrate the
effectiveness of our attack through extensive experiments on high-resolution
datasets: ImageNet and TrojAI. We also compare our approach to previous work on
modeling trigger distributions and find that our method are more scalable and
efficient in generating effective triggers. Last, we include a user study which
demonstrates that our method allows users to easily determine the existence of
such backdoors in existing poisoned classifiers. Thus, we argue that there is
no such thing as a secret backdoor in poisoned classifiers: poisoning a
classifier invites attacks not just by the party that possesses the trigger,
but from anyone with access to the classifier.
- Abstract(参考訳): 分類モデルに対する一般的に研究されているバックドア中毒攻撃では、攻撃者はトレーニングデータのサブセットに小さなトリガを追加する。
しばしば、有毒な分類器はトリガーを持っている敵に対してのみ脆弱であると暗黙的に仮定される。
本稿では,このバックドア分類器の考え方が誤りであることを示す。
我々は、毒物分類器の新しい脅威モデルについて記述し、元のトリガを知らない者が毒物分類器を制御したいと仮定する。
この脅威モデルでは,初期バックドアとトレーニングデータにアクセスせずに,複数の効果的な代替トリガを生成するための,テスト時のヒューマン・イン・ザ・ループ攻撃手法を提案する。
これらの代替トリガは、まず、スムーズ化された分類器の逆例を生成し、Denoized Smoothingと呼ばれる手順で作成し、次に人間のインタラクションによってスムーズな逆画像の色や部分を取り出す。
我々は、高解像度データセットであるImageNetとTrojAIの広範な実験を通して、攻撃の有効性を実証する。
また,従来のトリガ分布のモデリング手法と比較した結果,提案手法はよりスケーラブルで効率的なトリガ生成が可能であることが判明した。
最後に,本手法が既存の毒物分類器におけるバックドアの存在を容易に判定できることを実証するユーザ調査を行った。
したがって、有毒な分類器には秘密のバックドアなど存在しないと主張する: 分類器を毒することは、トリガーを持つ者だけでなく、分類器にアクセスする者からも攻撃を誘う。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - WeDef: Weakly Supervised Backdoor Defense for Text Classification [48.19967241668793]
既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。
本稿では,弱教師付きバックドア防御フレームワークWeDefを提案する。
WeDefは一般的なトリガーベースの攻撃に対して有効であることを示す。
論文 参考訳(メタデータ) (2022-05-24T05:53:11Z) - BFClass: A Backdoor-free Text Classification Framework [21.762274809679692]
そこで本研究では,テキスト分類のためのバックドアレス学習フレームワークであるBFClassを提案する。
BFClassのバックボーンは事前訓練された識別器であり、劣化した入力の各トークンがマスキング言語モデルに置き換えられたかどうかを予測する。
大規模な実験では、BFClassはすべてのトリガーを識別でき、95%の有毒なトレーニングサンプルを非常に限られた誤報で除去し、良質なトレーニングデータでトレーニングされたモデルとほぼ同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-09-22T17:28:21Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。