論文の概要: PBP: Post-training Backdoor Purification for Malware Classifiers
- arxiv url: http://arxiv.org/abs/2412.03441v3
- Date: Tue, 10 Dec 2024 20:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:13.059480
- Title: PBP: Post-training Backdoor Purification for Malware Classifiers
- Title(参考訳): PBP: マルウェア分類器の訓練後のバックドア浄化
- Authors: Dung Thuy Nguyen, Ngoc N. Tran, Taylor T. Johnson, Kevin Leach,
- Abstract要約: 近年、サイバーセキュリティにおける機械学習(ML)の台頭は、バックドア中毒の脅威の増加など、新たな課題をもたらしている。
ここでは,特定のバックドア埋め込み機構を仮定することなく,様々な種類のバックドア埋め込みを緩和するマルウェア分類器の訓練後防御であるPBPを紹介する。
提案手法は,2つのデータセット,2種類のバックドア手法,各種攻撃構成の実験により実証された,最先端の手法に対する大きな優位性を示す。
- 参考スコア(独自算出の注目度): 5.112004957241861
- License:
- Abstract: In recent years, the rise of machine learning (ML) in cybersecurity has brought new challenges, including the increasing threat of backdoor poisoning attacks on ML malware classifiers. For instance, adversaries could inject malicious samples into public malware repositories, contaminating the training data and potentially misclassifying malware by the ML model. Current countermeasures predominantly focus on detecting poisoned samples by leveraging disagreements within the outputs of a diverse set of ensemble models on training data points. However, these methods are not suitable for scenarios where Machine Learning-as-a-Service (MLaaS) is used or when users aim to remove backdoors from a model after it has been trained. Addressing this scenario, we introduce PBP, a post-training defense for malware classifiers that mitigates various types of backdoor embeddings without assuming any specific backdoor embedding mechanism. Our method exploits the influence of backdoor attacks on the activation distribution of neural networks, independent of the trigger-embedding method. In the presence of a backdoor attack, the activation distribution of each layer is distorted into a mixture of distributions. By regulating the statistics of the batch normalization layers, we can guide a backdoored model to perform similarly to a clean one. Our method demonstrates substantial advantages over several state-of-the-art methods, as evidenced by experiments on two datasets, two types of backdoor methods, and various attack configurations. Notably, our approach requires only a small portion of the training data -- only 1\% -- to purify the backdoor and reduce the attack success rate from 100\% to almost 0\%, a 100-fold improvement over the baseline methods. Our code is available at \url{https://github.com/judydnguyen/pbp-backdoor-purification-official}.
- Abstract(参考訳): 近年、サイバーセキュリティにおける機械学習(ML)の台頭は、MLマルウェア分類器に対するバックドア中毒攻撃の脅威の増加など、新たな課題をもたらしている。
例えば、敵は悪意のあるサンプルを公開マルウェアリポジトリに注入し、トレーニングデータを汚染し、MLモデルによってマルウェアを誤分類する可能性がある。
現在の対策は, 各種アンサンブルモデルのアウトプットにおける不一致を利用して, 有毒試料の検出に重点を置いている。
しかしながら、これらの方法は機械学習・アズ・ア・サービス(MLaaS)を使用するシナリオや、トレーニング後のモデルからバックドアを削除しようとする場合には適していない。
このシナリオに対処するために,特定のバックドア埋め込み機構を仮定することなく,様々な種類のバックドア埋め込みを緩和するマルウェア分類器の訓練後防御法であるPBPを導入する。
本手法は, トリガー埋め込み法とは無関係に, ニューラルネットワークの活性化分布に及ぼすバックドア攻撃の影響を利用する。
バックドアアタックが存在する場合には、各層の活性化分布を混合分布に変形させる。
バッチ正規化レイヤの統計を規制することにより、バックドアモデルがクリーンなモデルと同じように動作するようにガイドすることができます。
提案手法は,2つのデータセット,2種類のバックドア手法,各種攻撃構成の実験により実証された,最先端の手法に対する大きな優位性を示す。
特に、バックドアを浄化し、攻撃の成功率を100\%からほぼ0\%に下げるには、トレーニングデータのごく一部(たった1\%)しか必要としない。
私たちのコードは \url{https://github.com/judydnguyen/pbp-backdoor-purification-official} で利用可能です。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Erasing Self-Supervised Learning Backdoor by Cluster Activation Masking [65.44477004525231]
研究者は最近、自己監視学習(SSL)がバックドア攻撃に脆弱であることを発見した。
本稿では,クラスタアクティベーションマスキングによるSSLバックドアの消去を提案し,新しいPoisonCAM法を提案する。
ImageNet-100の最先端手法の3%と比較して,バックドアトリガ検出の精度は96%であった。
論文 参考訳(メタデータ) (2023-12-13T08:01:15Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic [27.62279831135902]
本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
論文 参考訳(メタデータ) (2022-05-13T21:32:24Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。