論文の概要: Backdoor Attacks Against Patch-based Mixture of Experts
- arxiv url: http://arxiv.org/abs/2505.01811v1
- Date: Sat, 03 May 2025 12:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.281032
- Title: Backdoor Attacks Against Patch-based Mixture of Experts
- Title(参考訳): パッチをベースとした専門家の混入に対するバックドア攻撃
- Authors: Cedric Chan, Jona te Lintelo, Stjepan Picek,
- Abstract要約: バックドア攻撃に対する画像分類のためのパッチベースMOE(pMoE)モデルの脆弱性について検討する。
我々の研究は、pMoEモデルがバックドア攻撃の影響を受けやすいことを示している。
5つのエポックのモデルを微調整すると、攻撃成功率は2.1%に低下し、精度は1.4%に低下する。
- 参考スコア(独自算出の注目度): 11.097488691672934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Deep Neural Networks (DNNs) continue to require larger amounts of data and computational power, Mixture of Experts (MoE) models have become a popular choice to reduce computational complexity. This popularity increases the importance of considering the security of MoE architectures. Unfortunately, the security of models using a MoE architecture has not yet gained much attention compared to other DNN models. In this work, we investigate the vulnerability of patch-based MoE (pMoE) models for image classification against backdoor attacks. We examine multiple trigger generation methods and Fine-Pruning as a defense. To better understand a pMoE model's vulnerability to backdoor attacks, we investigate which factors affect the model's patch selection. Our work shows that pMoE models are highly susceptible to backdoor attacks. More precisely, we achieve high attack success rates of up to 100% with visible triggers and a 2% poisoning rate, whilst only having a clean accuracy drop of 1.0%. Additionally, we show that pruning itself is ineffective as a defense but that fine-tuning can remove the backdoor almost completely. Our results show that fine-tuning the model for five epochs reduces the attack success rate to 2.1% whilst sacrificing 1.4% accuracy.
- Abstract(参考訳): Deep Neural Networks(DNN)は、大量のデータと計算能力を必要としているため、Mixture of Experts(MoE)モデルは、計算複雑性を減らすために一般的な選択肢となっている。
この人気は、MoEアーキテクチャのセキュリティを考えることの重要性を高めている。
残念ながら、MoEアーキテクチャを使ったモデルのセキュリティは、他のDNNモデルと比べてあまり注目されていない。
本研究では、バックドア攻撃に対する画像分類のためのパッチベースのMoEモデル(pMoE)の脆弱性について検討する。
本稿では,複数のトリガ生成手法とファインプルーニングを防御として検討する。
バックドア攻撃に対するpMoEモデルの脆弱性をよりよく理解するために,モデルのパッチ選択に影響する要因について検討する。
我々の研究は、pMoEモデルがバックドア攻撃の影響を受けやすいことを示している。
より正確には、目に見えるトリガーと2%の毒殺率で100%の攻撃成功率を達成する一方で、クリーンな精度の低下は1.0%である。
さらに,プルーニング自体の防御効果は低いが,微調整はバックドアをほぼ完全に取り除くことができることを示す。
その結果,5エポックの微調整により攻撃成功率は2.1%に低下し,精度は1.4%に低下した。
関連論文リスト
- Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-05-28T07:50:00Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Hijacking Attacks against Neural Networks by Analyzing Training Data [21.277867143827812]
CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。
CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。
CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
論文 参考訳(メタデータ) (2024-01-18T05:48:56Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。