論文の概要: Circumventing Backdoor Space via Weight Symmetry
- arxiv url: http://arxiv.org/abs/2506.07467v1
- Date: Mon, 09 Jun 2025 06:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.830428
- Title: Circumventing Backdoor Space via Weight Symmetry
- Title(参考訳): 軽量対称性によるバックドア空間の循環
- Authors: Jie Peng, Hongwei Yang, Jing Zhao, Hengji Dong, Hui He, Weizhe Zhang, Haoyu He,
- Abstract要約: 深層ニューラルネットワークは、トレーニング中に悪意のある振る舞いを埋め込むバックドア攻撃に対して脆弱である。
本研究では,データ形式とは独立して動作し,少量のクリーンサンプルしか必要としない新しいバックドア浄化防御である2段シンメトリ・コネクティビティ(TSC)を提案する。
- 参考スコア(独自算出の注目度): 23.660787542798197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are vulnerable to backdoor attacks, where malicious behaviors are implanted during training. While existing defenses can effectively purify compromised models, they typically require labeled data or specific training procedures, making them difficult to apply beyond supervised learning settings. Notably, recent studies have shown successful backdoor attacks across various learning paradigms, highlighting a critical security concern. To address this gap, we propose Two-stage Symmetry Connectivity (TSC), a novel backdoor purification defense that operates independently of data format and requires only a small fraction of clean samples. Through theoretical analysis, we prove that by leveraging permutation invariance in neural networks and quadratic mode connectivity, TSC amplifies the loss on poisoned samples while maintaining bounded clean accuracy. Experiments demonstrate that TSC achieves robust performance comparable to state-of-the-art methods in supervised learning scenarios. Furthermore, TSC generalizes to self-supervised learning frameworks, such as SimCLR and CLIP, maintaining its strong defense capabilities. Our code is available at https://github.com/JiePeng104/TSC.
- Abstract(参考訳): 深層ニューラルネットワークは、トレーニング中に悪意のある振る舞いを埋め込むバックドア攻撃に対して脆弱である。
既存のディフェンスは、妥協したモデルを効果的に浄化することができるが、ラベル付きデータや特定のトレーニング手順を必要とするため、教師付き学習設定を越えて適用することは困難である。
特に最近の研究では、さまざまな学習パラダイムにおけるバックドア攻撃が成功し、重要なセキュリティ上の懸念が浮かび上がっている。
このギャップに対処するために,データ形式とは独立して動作し,少量のクリーンサンプルしか必要としない,新しいバックドア浄化防御であるTSC(Two-stage Symmetry Connectivity)を提案する。
理論的解析により、ニューラルネットワークの置換不変性と二次モード接続性を利用して、TSCは汚染された試料の損失を増幅し、境界値のクリーンな精度を維持しながら証明する。
実験により、TSCは教師あり学習シナリオにおける最先端の手法に匹敵する堅牢な性能を達成することが示された。
さらに、TSCはSimCLRやCLIPといった自己教師型学習フレームワークに一般化し、強力な防御機能を維持している。
私たちのコードはhttps://github.com/JiePeng104/TSCで利用可能です。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Towards Stable Backdoor Purification through Feature Shift Tuning [22.529990213795216]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
論文 参考訳(メタデータ) (2023-10-03T08:25:32Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Targeted Forgetting and False Memory Formation in Continual Learners
through Adversarial Backdoor Attacks [2.830541450812474]
破滅的な忘れ物を避けるために,一般的な連続学習アルゴリズムであるElastic Weight Consolidation (EWC)の脆弱性について検討する。
知的敵は、EWCの防御を回避でき、訓練中に少量の誤報をモデルに導入することで、段階的かつ故意に忘れることを引き起こす。
MNISTデータセットの置換型と分割型の両方に"バックドア"攻撃サンプルを注入することで、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2020-02-17T18:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。