論文の概要: Single Image Backdoor Inversion via Robust Smoothed Classifiers
- arxiv url: http://arxiv.org/abs/2303.00215v2
- Date: Sun, 17 Dec 2023 23:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:51:02.389551
- Title: Single Image Backdoor Inversion via Robust Smoothed Classifiers
- Title(参考訳): ロバストな平滑化器による単一画像バックドアインバージョン
- Authors: Mingjie Sun, J. Zico Kolter
- Abstract要約: 隠れたバックドアを1枚の画像で復元できるバックドア・インバージョンのための新しいアプローチを提案する。
本研究では,1枚の画像で隠れたバックドアを復元できる,バックドア・インバージョンのための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 76.66635991456336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor inversion, a central step in many backdoor defenses, is a
reverse-engineering process to recover the hidden backdoor trigger inserted
into a machine learning model. Existing approaches tackle this problem by
searching for a backdoor pattern that is able to flip a set of clean images
into the target class, while the exact size needed of this support set is
rarely investigated. In this work, we present a new approach for backdoor
inversion, which is able to recover the hidden backdoor with as few as a single
image. Insipired by recent advances in adversarial robustness, our method
SmoothInv starts from a single clean image, and then performs projected
gradient descent towards the target class on a robust smoothed version of the
original backdoored classifier. We find that backdoor patterns emerge naturally
from such optimization process. Compared to existing backdoor inversion
methods, SmoothInv introduces minimum optimization variables and does not
require complex regularization schemes. We perform a comprehensive quantitative
and qualitative study on backdoored classifiers obtained from existing backdoor
attacks. We demonstrate that SmoothInv consistently recovers successful
backdoors from single images: for backdoored ImageNet classifiers, our
reconstructed backdoors have close to 100% attack success rates. We also show
that they maintain high fidelity to the underlying true backdoors. Last, we
propose and analyze two countermeasures to our approach and show that SmoothInv
remains robust in the face of an adaptive attacker. Our code is available at
https://github.com/locuslab/smoothinv.
- Abstract(参考訳): バックドアインバージョン(backdoor inversion)は、多くのバックドア防御の中心的なステップであり、マシンラーニングモデルに挿入された隠れバックドアトリガーを復元するリバースエンジニアリングプロセスである。
既存のアプローチでは、クリーンなイメージのセットをターゲットクラスに切り替えることのできるバックドアパターンを探索することでこの問題に対処するが、このサポートセットの正確なサイズを調査することは滅多にない。
本研究では,1枚の画像で隠れたバックドアを復元できる,バックドア・インバージョンのための新しいアプローチを提案する。
近年の対向ロバスト化の進展により,SmoothInv法は1つのクリーンな画像から始まり,元のバックドア型分類器の頑健なスムーズなバージョンを用いて,対象クラスへの投射勾配降下を行う。
このような最適化プロセスからバックドアパターンが自然に現れることが分かりました。
既存のバックドア反転法と比較して、SmoothInvは最小最適化変数を導入し、複雑な正規化スキームを必要としない。
既存のバックドア攻撃から得られたバックドア分類器の定量的・質的研究を行った。
バックドアのImageNet分類器の場合、再構築されたバックドアは100%の攻撃成功率を持つ。
また、真のバックドアに対して高い忠実性を維持していることも示しています。
最後に,本手法に対する2つの対策を提案し分析し,適応型攻撃者に対してsmoothinvが頑健であることを示す。
私たちのコードはhttps://github.com/locuslab/smoothinvで利用可能です。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - BAN: Detecting Backdoors Activated by Adversarial Neuron Noise [30.243702765232083]
ディープラーニングに対するバックドア攻撃は、最近の研究コミュニティで大きな注目を集めている脅威である。
バックドアディフェンスは主にバックドアのインバージョンに基づいており、これは汎用的でモデルに依存しず、実用的な脅威シナリオに適用可能であることが示されている。
本稿では、追加のニューロンアクティベーション情報を導入して、バックドア検出のためのバックドア特徴インバージョンを改善する。
論文 参考訳(メタデータ) (2024-05-30T10:44:45Z) - Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Physical Invisible Backdoor Based on Camera Imaging [32.30547033643063]
現在のバックドア攻撃では、クリーンな画像のピクセルを変更する必要がある。
本稿では,自然画像の画素の変化を伴わずに,カメラ画像に基づく新しい物理見えないバックドアを提案する。
論文 参考訳(メタデータ) (2023-09-14T04:58:06Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Trap and Replace: Defending Backdoor Attacks by Trapping Them into an
Easy-to-Replace Subnetwork [105.0735256031911]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本研究は,バックドアの有害な影響を除去しやすくする,新たなバックドア防衛戦略を提案する。
我々は10種類のバックドア攻撃に対して本手法を評価した。
論文 参考訳(メタデータ) (2022-10-12T17:24:01Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。