論文の概要: CSC: Turning the Adversary's Poison against Itself
- arxiv url: http://arxiv.org/abs/2604.21416v1
- Date: Thu, 23 Apr 2026 08:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.386365
- Title: CSC: Turning the Adversary's Poison against Itself
- Title(参考訳): CSC: 敵の反逆罪を自称する
- Authors: Yuchen Shi, Xin Guo, Huajie Chen, Tianqing Zhu, Bo Liu, Wanlei Zhou,
- Abstract要約: 中毒ベースのバックドア攻撃は、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,モデルトレーニング中のバックドア攻撃ダイナミクスの包括的解析を行う。
新規な防毒対策としてクラスター分離封止法(CSC)を提案する。
- 参考スコア(独自算出の注目度): 23.878184947897765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Poisoning-based backdoor attacks pose significant threats to deep neural networks by embedding triggers in training data, causing models to misclassify triggered inputs as adversary-specified labels while maintaining performance on clean data. Existing poison restraint-based defenses often suffer from inadequate detection against specific attack variants and compromise model utility through unlearning methods that lead to accuracy degradation. This paper conducts a comprehensive analysis of backdoor attack dynamics during model training, revealing that poisoned samples form isolated clusters in latent space early on, with triggers acting as dominant features distinct from benign ones. Leveraging these insights, we propose Cluster Segregation Concealment (CSC), a novel poison suppression defense. CSC first trains a deep neural network via standard supervised learning while segregating poisoned samples through feature extraction from early epochs, DBSCAN clustering, and identification of anomalous clusters based on class diversity and density metrics. In the concealment stage, identified poisoned samples are relabeled to a virtual class, and the model's classifier is fine-tuned using cross-entropy loss to replace the backdoor association with a benign virtual linkage, preserving overall accuracy. CSC was evaluated on four benchmark datasets against twelve poisoning-based attacks, CSC outperforms nine state-of-the-art defenses by reducing average attack success rates to near zero with minimal clean accuracy loss. Contributions include robust backdoor patterns identification, an effective concealment mechanism, and superior empirical validation, advancing trustworthy artificial intelligence.
- Abstract(参考訳): 中毒ベースのバックドア攻撃は、トレーニングデータにトリガーを埋め込むことで、ディープニューラルネットワークに重大な脅威をもたらす。
既存の防毒剤ベースの防御は、精度の低下につながる未学習の方法を通じて、特定の攻撃の変種や妥協モデルの実用性に対する不適切な検出に悩まされることが多い。
本稿では, モデルトレーニング中のバックドア攻撃動態を包括的に解析し, 有毒な試料が早期に潜伏空間に孤立したクラスターを形成し, トリガーは良性成分とは異なる支配的特徴として作用することを示した。
これらの知見を生かして, 新しい防毒対策であるクラスター隔離協定(CSC)を提案する。
CSCは、初期のエポックからの特徴抽出、DBSCANクラスタリング、およびクラス多様性と密度のメトリクスに基づいた異常クラスタの識別を通じて、有毒なサンプルを分離しながら、標準的な教師付き学習を通じてディープニューラルネットワークをトレーニングする。
隠蔽段階では、特定された有毒試料を仮想クラスに許容し、モデル分類器をクロスエントロピー損失を用いて微調整し、バックドア関連を良質な仮想リンクに置き換え、全体的な精度を維持する。
CSCは、12の毒素による攻撃に対して4つのベンチマークデータセットで評価され、CSCは平均的な攻撃成功率を最小限の精度でゼロに減らし、9つの最先端の防御性能を上回った。
コントリビューションには、堅牢なバックドアパターンの識別、効果的な隠蔽機構、優れた経験的検証、信頼できる人工知能の進歩などが含まれる。
関連論文リスト
- PoiCGAN: A Targeted Poisoning Based on Feature-Label Joint Perturbation in Federated Learning [9.902374988830413]
産業画像分類には、フェデレートラーニング(FL)が適用される。
既存の毒殺方法の大きな制限は、モデル性能試験をバイパスすることの難しさである。
我々は,特徴ラベル協調摂動に基づく標的的中毒発作であるPoiCGANを提案する。
本手法は, ベースライン法よりも83.97%高い攻撃成功率を示し, メインタスクの精度は8.87%未満である。
論文 参考訳(メタデータ) (2026-03-24T13:08:53Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Universal Detection of Backdoor Attacks via Density-based Clustering and
Centroids Analysis [24.953032059932525]
クラスタリングとセントロイド分析(CCA-UD)に基づくバックドア攻撃に対するユニバーサルディフェンスを提案する。
防御の目的は、ディープラーニングモデルがトレーニングデータセットを検査することでバックドア攻撃の対象になるかどうかを明らかにすることである。
論文 参考訳(メタデータ) (2023-01-11T16:31:38Z) - FedCC: Robust Federated Learning against Model Poisoning Attacks [0.0]
フェデレートラーニング(Federated Learning)は、プライバシの問題に対処するために設計された分散フレームワークである。
新たなアタックサーフェスを導入しており、データは独立に、そしてIdentically Distributedである場合、特に困難である。
我々は,モデル中毒に対する簡易かつ効果的な新しい防御アルゴリズムであるFedCCを提案する。
論文 参考訳(メタデータ) (2022-12-05T01:52:32Z) - AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks [18.461079157949698]
画像分類ネットワークに対する バックドア毒殺攻撃
本稿では,毒殺攻撃に対する簡易な自動検出・補正手法を提案する。
我々の手法は、一般的なベンチマークにおいて、NeuralCleanseやSTRIPといった既存の防御よりも優れています。
論文 参考訳(メタデータ) (2022-01-31T23:42:32Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。