論文の概要: Cert-SSB: Toward Certified Sample-Specific Backdoor Defense
- arxiv url: http://arxiv.org/abs/2504.21730v1
- Date: Wed, 30 Apr 2025 15:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 18:07:50.095525
- Title: Cert-SSB: Toward Certified Sample-Specific Backdoor Defense
- Title(参考訳): Cert-SSB: Certified Sample-Specific Backdoor Defense
- Authors: Ting Qiao, Yingjia Wang, Xing Liu, Sixing Wu, Jianbing Li, Yiming Li,
- Abstract要約: ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
ハッカーはトレーニングデータのごく一部を操作して、隠れたバックドアをモデルに埋め込む。
本稿では, Cert- SSB と呼ばれる, サンプル固有のバックドア防御手法を提案する。
- 参考スコア(独自算出の注目度): 11.881041521642405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to backdoor attacks, where an attacker manipulates a small portion of the training data to implant hidden backdoors into the model. The compromised model behaves normally on clean samples but misclassifies backdoored samples into the attacker-specified target class, posing a significant threat to real-world DNN applications. Currently, several empirical defense methods have been proposed to mitigate backdoor attacks, but they are often bypassed by more advanced backdoor techniques. In contrast, certified defenses based on randomized smoothing have shown promise by adding random noise to training and testing samples to counteract backdoor attacks. In this paper, we reveal that existing randomized smoothing defenses implicitly assume that all samples are equidistant from the decision boundary. However, it may not hold in practice, leading to suboptimal certification performance. To address this issue, we propose a sample-specific certified backdoor defense method, termed Cert-SSB. Cert-SSB first employs stochastic gradient ascent to optimize the noise magnitude for each sample, ensuring a sample-specific noise level that is then applied to multiple poisoned training sets to retrain several smoothed models. After that, Cert-SSB aggregates the predictions of multiple smoothed models to generate the final robust prediction. In particular, in this case, existing certification methods become inapplicable since the optimized noise varies across different samples. To conquer this challenge, we introduce a storage-update-based certification method, which dynamically adjusts each sample's certification region to improve certification performance. We conduct extensive experiments on multiple benchmark datasets, demonstrating the effectiveness of our proposed method. Our code is available at https://github.com/NcepuQiaoTing/Cert-SSB.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)はバックドア攻撃に対して脆弱であり、攻撃者がトレーニングデータのごく一部を操作して、隠れたバックドアをモデルに埋め込む。
妥協されたモデルは、通常クリーンなサンプルで振る舞うが、バックドアされたサンプルを攻撃者が特定したターゲットクラスに誤って分類し、現実世界のDNNアプリケーションに重大な脅威をもたらす。
現在、バックドア攻撃を緩和するためにいくつかの実証的防御法が提案されているが、より先進的なバックドア技術によって回避されることが多い。
対照的に、ランダムな平滑化に基づく認証された防御は、トレーニングにランダムノイズを付加し、バックドア攻撃に対処するためのサンプルをテストすることで、有望であることが示されている。
本稿では,既存の無作為な平滑化防御法において,すべてのサンプルが決定境界から等距離的であることを暗黙的に仮定することを明らかにする。
しかし、実際には行われないかもしれないため、準最適認定のパフォーマンスにつながる。
そこで本研究では,Cert-SSBと呼ばれる,サンプル固有のバックドア防御手法を提案する。
Cert-SSBはまず、各サンプルの雑音の大きさを最適化するために確率勾配を用いており、複数の有毒なトレーニングセットに適用されたサンプル固有のノイズレベルを保証し、複数のスムーズなモデルを再訓練する。
その後、Cert-SSBは複数の滑らかなモデルの予測を集約し、最終的なロバストな予測を生成する。
特に、この場合、最適化されたノイズが異なるサンプルによって異なるため、既存の認証方法が適用不可能となる。
この課題を克服するために,各サンプルの認証領域を動的に調整し,認証性能を向上させるストレージ更新ベースの認証手法を提案する。
提案手法の有効性を実証し,複数のベンチマークデータセットについて広範な実験を行った。
私たちのコードはhttps://github.com/NcepuQiaoTing/Cert-SSB.comで利用可能です。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Erasing Self-Supervised Learning Backdoor by Cluster Activation Masking [65.44477004525231]
研究者は最近、自己監視学習(SSL)がバックドア攻撃に脆弱であることを発見した。
本稿では,クラスタアクティベーションマスキングによるSSLバックドアの消去を提案し,新しいPoisonCAM法を提案する。
ImageNet-100の最先端手法の3%と比較して,バックドアトリガ検出の精度は96%であった。
論文 参考訳(メタデータ) (2023-12-13T08:01:15Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Machine Learning needs Better Randomness Standards: Randomised Smoothing
and PRNG-based attacks [14.496582479888765]
攻撃者が一般的に依存するランダム性のみを用いて、機械学習システムに侵入できるかどうかを検討する。
我々は、攻撃者が供給されたランダム性をバックドアして、最大81回まで過大評価または過小評価のロバスト性を証明する、全く新しい攻撃を実演する。
我々は、安全クリティカルでセキュリティクリティカルな機械学習アプリケーションにもっと適するように、乱数テストに関するNISTガイドラインの更新を推奨する。
論文 参考訳(メタデータ) (2023-06-24T19:50:08Z) - Incremental Randomized Smoothing Certification [5.971462597321995]
ごく少数のサンプルで近似モデルの認証を行うために、元のスムーズなモデルに対する認証保証を再利用する方法を示す。
提案手法の有効性を実験的に実証し,スクラッチから近似モデルのランダムな平滑化を適用した認証に対して,最大3倍の認証スピードアップを示す。
論文 参考訳(メタデータ) (2023-05-31T03:11:15Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Backdoor Defense via Decoupling the Training Process [46.34744086706348]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,従来のエンドツーエンドトレーニングプロセスを3段階に分割して,新たなバックドアディフェンスを提案する。
論文 参考訳(メタデータ) (2022-02-05T03:34:01Z) - Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios [22.22337220509128]
バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-20T22:21:38Z) - Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks [75.46678178805382]
emphdata中毒攻撃では、攻撃者は学習した機械学習モデルを破損させるためにいくつかのトレーニング例を変更し、削除し、または挿入する。
データ中毒攻撃に対するバッグングの本質的確固たる堅牢性を証明する。
本手法は, 任意の修正, 削除, 挿入を行う場合, MNIST 上で 911.1% の精度を達成している。
論文 参考訳(メタデータ) (2020-08-11T03:12:42Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。