論文の概要: Density-aware Sample-specific Attack
- arxiv url: http://arxiv.org/abs/2605.27809v2
- Date: Thu, 28 May 2026 17:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.834088
- Title: Density-aware Sample-specific Attack
- Title(参考訳): 密度認識型サンプル特異的アタック
- Authors: Qiyuan Wang, Yao Li, Raymond K. W. Wong,
- Abstract要約: ベイズ最適モデルに基づく最適なサンプル特異的トリガ構築を特徴付ける原理的基準を導入する。
分析の結果, クリーンデータ分布の低密度領域にトリガサンプルを操り込むと, 攻撃成功とクリーンな保存が同時に最適化されることが判明した。
- 参考スコア(独自算出の注目度): 9.323723123910618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in backdoor attacks, existing methods remain susceptible to post-training defenses that erase the backdoor through fine-tuning or pruning. We revisit the core objectives of backdoor attacks and derive principled criteria characterizing optimal sample-specific trigger construction under a Bayes-optimal model of the victim's training. Our analysis reveals that both attack success and clean-accuracy preservation are simultaneously optimized when triggered samples are steered into low-density regions of the clean data distribution, a distributional condition that controls all moments of the poisoned distribution at once rather than a handful of input-space summary statistics. We introduce a bilevel optimization framework that estimates density ratios via conditional time-score matching and optimizes a mixture-model objective to place triggered samples in these sparse regions. Extensive evaluations on MNIST, CIFAR-10, GTSRB, and TinyImageNet demonstrate that our method achieves above 99\% attack success rate before defense and retains 50--85 percentage points higher post-defense ASR than the strongest baselines under fine-tuning defenses. Against neuron-pruning defenses, the method exhibits complete immunity, with zero neurons identified for removal across all pruning thresholds. These results expose a fundamental gap in current defense paradigms and underscore the need for defenses that operate beyond the support of the clean distribution.
- Abstract(参考訳): 近年のバックドア攻撃の進展にもかかわらず、既存の手法は、微調整や刈り取りによってバックドアを消去する訓練後の防御の影響を受けやすいままである。
我々は,バックドア攻撃のコア目標を再考し,被害者のトレーニングのベイズ最適モデルの下で,最適なサンプル特異的トリガ構築を特徴付ける原則的基準を導出する。
分析の結果, 発生したサンプルをクリーンデータ分布の低密度領域に操り込むと, 攻撃成功とクリーンな保存が同時に最適化されることが判明した。
本稿では,条件付き時間スコアマッチングを用いて密度比を推定し,混合モデルの目的を最適化し,これらのスパース領域にトリガサンプルを配置する二段階最適化フレームワークを提案する。
MNIST, CIFAR-10, GTSRB, TinyImageNetの広範囲な評価により, 防御前の攻撃成功率は99%以上であり, 防犯後ASRの50-85パーセントは, 微調整時の最強ベースラインよりも高い値を示した。
神経切断防御に対して、この方法は完全な免疫力を示し、すべての切断しきい値から除去するためにゼロニューロンを同定する。
これらの結果は、現在の防衛パラダイムの根本的なギャップを露呈し、清潔な流通の支援を超えて機能する防衛の必要性を浮き彫りにしている。
関連論文リスト
- Memory Efficient Full-gradient Attacks (MEFA) Framework for Adversarial Defense Evaluations [6.970407342993016]
勾配チェックポインティングは、長い軌道を通した正確なエンドツーエンドの計算勾配を実践する。
以前の評価では、メモリの制約によりバックプロパゲーションが近似されることが多い。
精製防御のためのメモリ効率の高いフルグレード評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T14:35:04Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks [3.5266668043629714]
本稿では,暗号解析パラメータ抽出攻撃に対する最初の防御機構を提案する。
私たちの重要な洞察は、これらの攻撃が成功するために必要なニューロンのユニークさを取り除くことです。
我々は、新しい抽出対応の訓練手法によりこれを達成した。
論文 参考訳(メタデータ) (2025-09-20T06:05:23Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - CopyrightShield: Enhancing Diffusion Model Security against Copyright Infringement Attacks [61.06621533874629]
拡散モデルは、攻撃者が戦略的に修正された非侵害画像をトレーニングセットに注入する著作権侵害攻撃に弱い。
まず、上記の攻撃に対して防御するための防御フレームワーク、PhiliptyShieldを提案する。
実験により,PhiliptyShieldは2つの攻撃シナリオで有毒なサンプル検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-02T14:19:44Z) - CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文 参考訳(メタデータ) (2024-09-26T07:35:23Z) - Progressive Poisoned Data Isolation for Training-time Backdoor Defense [23.955347169187917]
ディープニューラルネットワーク(DNN)は、悪意のある攻撃者がデータ中毒によってモデルの予測を操作するバックドア攻撃の影響を受けやすい。
本研究では, PPD (Progressive isolated of Poisoned Data) と呼ばれる, 新規かつ効果的な防御手法を提案する。
我々のPIPDは99.95%の平均真正率(TPR)を達成し、CIFAR-10データセットに対する多様な攻撃に対して平均偽正率(FPR)を0.06%とした。
論文 参考訳(メタデータ) (2023-12-20T02:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。