論文の概要: Poison in the Well: Feature Embedding Disruption in Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2505.19821v1
- Date: Mon, 26 May 2025 10:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.37225
- Title: Poison in the Well: Feature Embedding Disruption in Backdoor Attacks
- Title(参考訳): Poison in the Well: バックドア攻撃による破壊を埋め込む機能
- Authors: Zhou Feng, Jiahao Chen, Chunyi Zhou, Yuwen Pu, Qingming Li, Shouling Ji,
- Abstract要約: ShadowPrintは、ニューラルネットワーク内の機能埋め込みをターゲットとして、高いASRとステルス性を実現する、汎用的なバックドア攻撃である。
優れたASR(100%まで)、安定したCA(ほとんどの場合1%以下)、低いDDR(5%以下)をクリーンラベルとダーティラベルの両方で達成する。
- 参考スコア(独自算出の注目度): 30.942708596932043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks embed malicious triggers into training data, enabling attackers to manipulate neural network behavior during inference while maintaining high accuracy on benign inputs. However, existing backdoor attacks face limitations manifesting in excessive reliance on training data, poor stealth, and instability, which hinder their effectiveness in real-world applications. Therefore, this paper introduces ShadowPrint, a versatile backdoor attack that targets feature embeddings within neural networks to achieve high ASRs and stealthiness. Unlike traditional approaches, ShadowPrint reduces reliance on training data access and operates effectively with exceedingly low poison rates (as low as 0.01%). It leverages a clustering-based optimization strategy to align feature embeddings, ensuring robust performance across diverse scenarios while maintaining stability and stealth. Extensive evaluations demonstrate that ShadowPrint achieves superior ASR (up to 100%), steady CA (with decay no more than 1% in most cases), and low DDR (averaging below 5%) across both clean-label and dirty-label settings, and with poison rates ranging from as low as 0.01% to 0.05%, setting a new standard for backdoor attack capabilities and emphasizing the need for advanced defense strategies focused on feature space manipulations.
- Abstract(参考訳): バックドア攻撃は悪意のあるトリガーをトレーニングデータに埋め込むことで、攻撃者は推論中にニューラルネットワークの動作を操作できる。
しかし、既存のバックドア攻撃は、トレーニングデータへの過度な依存、盗難の低さ、不安定さに直面する制限に直面しており、現実のアプリケーションではその効果を妨げている。
そこで本稿では,ニューラルネットワーク内の特徴埋め込みをターゲットとした多目的バックドア攻撃であるShadowPrintを導入し,高いASRとステルス性を実現する。
従来のアプローチとは異なり、ShadowPrintはトレーニングデータアクセスへの依存を減らし、非常に低い毒性率(0.01%以下)で効果的に動作する。
クラスタリングベースの最適化戦略を活用して、機能埋め込みを整列し、安定性とステルスを維持しながら、さまざまなシナリオにわたって堅牢なパフォーマンスを確保する。
広範囲な評価の結果、シャドウプリントは優れたASR(100%まで)、安定したCA(ほとんどの場合1%以下)、低いDDR(5%以下)をクリーンラベルとダーティラベルの両方で達成し、毒性率は0.01%から0.05%にまで低下し、バックドア攻撃能力の新たな標準を設定し、特徴空間操作に焦点を当てた高度な防衛戦略の必要性を強調している。
関連論文リスト
- Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。
また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。
提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T02:03:27Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。