論文の概要: IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency
- arxiv url: http://arxiv.org/abs/2405.09786v3
- Date: Sun, 2 Jun 2024 15:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:39:00.606935
- Title: IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency
- Title(参考訳): IBD-PSC:パラメータ指向スケーリング一貫性による入力レベルのバックドア検出
- Authors: Linshan Hou, Ruili Feng, Zhongyun Hua, Wei Luo, Leo Yu Zhang, Yiming Li,
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
- 参考スコア(独自算出の注目度): 20.61046457594186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to backdoor attacks, where adversaries can maliciously trigger model misclassifications by implanting a hidden backdoor during model training. This paper proposes a simple yet effective input-level backdoor detection (dubbed IBD-PSC) as a `firewall' to filter out malicious testing images. Our method is motivated by an intriguing phenomenon, i.e., parameter-oriented scaling consistency (PSC), where the prediction confidences of poisoned samples are significantly more consistent than those of benign ones when amplifying model parameters. In particular, we provide theoretical analysis to safeguard the foundations of the PSC phenomenon. We also design an adaptive method to select BN layers to scale up for effective detection. Extensive experiments are conducted on benchmark datasets, verifying the effectiveness and efficiency of our IBD-PSC method and its resistance to adaptive attacks. Codes are available at \href{https://github.com/THUYimingLi/BackdoorBox}{BackdoorBox}.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)はバックドア攻撃に対して脆弱であり、モデルトレーニング中に隠れたバックドアを埋め込むことで、敵が悪意を持ってモデルミス分類をトリガーすることができる。
本稿では,悪質なテスト画像のフィルタリングを行うため,単純な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を「ファイアウォール」として提案する。
本手法は, モデルパラメータを増幅する際, 有毒試料の予測信頼度が良性試料の予測値と著しく一致している, パラメータ指向スケーリング一貫性(PSC)という興味深い現象によって動機付けられている。
特に,PSC現象の基礎を守るために理論的解析を行う。
また, BN層を選択する適応的手法を設計し, 有効検出のためにスケールアップする。
IBD-PSC法の有効性と,適応攻撃に対する耐性を検証した。
コードは \href{https://github.com/THUYimingLi/BackdoorBox}{BackdoorBox} で公開されている。
関連論文リスト
- Reliable Poisoned Sample Detection against Backdoor Attacks Enhanced by Sharpness Aware Minimization [38.957943962546864]
我々は,バニラ学習アルゴリズムではなく,シャープネス・アウェア最小化(SAM)アルゴリズムを用いて1つのモデルを訓練することを提案する。
いくつかのベンチマークデータセットに対する大規模な実験は、弱いバックドア攻撃と強いバックドア攻撃の両方に対して提案手法の信頼性の高い検出性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:35:08Z) - DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。
さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Adaptive Perturbation Generation for Multiple Backdoors Detection [29.01715186371785]
本稿では,複数種類のバックドア攻撃を検出するための適応摂動生成(APG)フレームワークを提案する。
まず,複数種類のバックドアトリガに適合するグローバル・ローカル戦略を設計する。
摂動注入の効率をさらに高めるため,勾配誘導マスク生成戦略を導入する。
論文 参考訳(メタデータ) (2022-09-12T13:37:06Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。