論文の概要: Revisiting Training-Inference Trigger Intensity in Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2503.12058v1
- Date: Sat, 15 Mar 2025 09:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:44.143329
- Title: Revisiting Training-Inference Trigger Intensity in Backdoor Attacks
- Title(参考訳): バックドアアタックにおけるトレーニング推論トリガーインテンシティの再検討
- Authors: Chenhao Lin, Chenyang Zhao, Shiwei Wang, Longtian Wang, Chao Shen, Zhengyu Zhao,
- Abstract要約: トレーニング推論トリガのミスマッチは,2つの実践シナリオにおける攻撃を促進できることを示す。
これらの新たな洞察は、さまざまなバックドア攻撃、モデル、データセット、タスク、(デジタル/物理)ドメインにまたがって一般化可能であることが検証されている。
- 参考スコア(独自算出の注目度): 14.400168531745742
- License:
- Abstract: Backdoor attacks typically place a specific trigger on certain training data, such that the model makes prediction errors on inputs with that trigger during inference. Despite the core role of the trigger, existing studies have commonly believed a perfect match between training-inference triggers is optimal. In this paper, for the first time, we systematically explore the training-inference trigger relation, particularly focusing on their mismatch, based on a Training-Inference Trigger Intensity Manipulation (TITIM) workflow. TITIM specifically investigates the training-inference trigger intensity, such as the size or the opacity of a trigger, and reveals new insights into trigger generalization and overfitting. These new insights challenge the above common belief by demonstrating that the training-inference trigger mismatch can facilitate attacks in two practical scenarios, posing more significant security threats than previously thought. First, when the inference trigger is fixed, using training triggers with mixed intensities leads to stronger attacks than using any single intensity. For example, on CIFAR-10 with ResNet-18, mixing training triggers with 1.0 and 0.1 opacities improves the worst-case attack success rate (ASR) (over different testing opacities) of the best single-opacity attack from 10.61\% to 92.77\%. Second, intentionally using certain mismatched training-inference triggers can improve the attack stealthiness, i.e., better bypassing defenses. For example, compared to the training/inference intensity of 1.0/1.0, using 1.0/0.7 decreases the area under the curve (AUC) of the Scale-Up defense from 0.96 to 0.62, while maintaining a high attack ASR (99.65\% vs. 91.62\%). The above new insights are validated to be generalizable across different backdoor attacks, models, datasets, tasks, and (digital/physical) domains.
- Abstract(参考訳): バックドア攻撃は通常、特定のトレーニングデータに特定のトリガを配置する。
トリガーの中核的な役割にもかかわらず、既存の研究はトレーニングと推論のトリガーの完全な一致が最適だと考えている。
本稿では,トレーニング・推論・トリガーの関係を,トレーニング・推論・トリガー・インテンシティ・マニピュレーション(TITIM)のワークフローに基づいて,トレーニング・推論・トリガー関係を初めて体系的に探求する。
TITIMは、トリガーのサイズや不透明度などのトレーニング推論トリガーの強度を特に調査し、トリガーの一般化と過剰適合に関する新たな洞察を明らかにしている。
これらの新たな洞察は、トレーニング推論のトリガーミスマッチが2つの実践シナリオでの攻撃を促進することを示し、これまで考えられていたよりも重大なセキュリティ脅威を生じさせることによって、上記の一般的な信念に挑戦する。
まず、推論トリガーが固定された場合、混合強度のトレーニングトリガーを使用することで、単一のインテンシティを使用するよりも強力なアタックが発生する。
例えば、CIFAR-10とResNet-18では、トレーニングトリガーを1.0と0.1の不透明度で混合することで、最高のシングルオパシティ攻撃の最悪の攻撃成功率(ASR)が10.61\%から92.77\%に向上する。
第二に、意図的にミスマッチしたトレーニング推論トリガーを使用すると、攻撃のステルスネス、すなわち防御を回避できる。
例えば、1.0/1.0のトレーニング/推論強度と比較すると、1.0/0.7を使用すると、スケールアップ防衛の曲線(AUC)の面積は0.96から0.62に減少し、高い攻撃ASR(99.65\% vs. 91.62\%)を維持している。
上記の新たな洞察は、さまざまなバックドア攻撃、モデル、データセット、タスク、(デジタル/物理)ドメインにまたがって一般化可能であることが検証されている。
関連論文リスト
- Adapting to Evolving Adversaries with Regularized Continual Robust Training [47.93633573641843]
本稿では,各攻撃がモデルロジット空間のサンプルをどの程度乱すかによって,モデルが異なる攻撃に対する頑健さのギャップが限定されていることを示す理論的結果を示す。
われわれの発見とオープンソースコードは、進化する攻撃に対して堅牢なモデルの配備の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-06T17:38:41Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - FTA: Stealthy and Adaptive Backdoor Attack with Flexible Triggers on
Federated Learning [11.636353298724574]
我々は,新たなステルスで堅牢なバックドア攻撃を,連邦学習(FL)防衛に対して提案する。
我々は、許容できない柔軟なトリガーパターンで良質なサンプルを操作することを学べる生成的トリガー関数を構築した。
我々のトリガージェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。
論文 参考訳(メタデータ) (2023-08-31T20:25:54Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Robustness, Privacy, and Generalization of Adversarial Training [84.38148845727446]
本稿では, 対人訓練におけるプライバシ・ロバスト性トレードオフと一般化・ロバスト性トレードオフの確立と定量化を行う。
我々は,差分プライバシの大きさが強固な強度と正の相関を持つ場合,敵対的トレーニングは$(varepsilon,delta)$-differentially privateであることが示される。
我々の一般化境界は、ディープラーニングにおいて大きなパラメータサイズに明示的に依存していない。
論文 参考訳(メタデータ) (2020-12-25T13:35:02Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。