論文の概要: Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2603.11949v1
- Date: Thu, 12 Mar 2026 13:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.126274
- Title: Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models
- Title(参考訳): 遅延バックドア攻撃:事前訓練モデルにおける新たな攻撃面としての時間次元探索
- Authors: Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit Niyato,
- Abstract要約: textittextbfDelayed Backdoor Attacks (DBA)を導入した。
我々は、UnderlineDecay(DND)に基づくUnderlineDelayed Backdoor Attacksと呼ばれる概念実証プロトタイプを実装した。
DNDには、しきい値に達するまでアクティベーションを延期する、軽量でステートフルなロジックモジュールが組み込まれている。
- 参考スコア(独自算出の注目度): 42.9538411462588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks against pre-trained models (PTMs) have traditionally operated under an ``immediacy assumption,'' where malicious behavior manifests instantly upon trigger occurrence. This work revisits and challenges this paradigm by introducing \textit{\textbf{Delayed Backdoor Attacks (DBA)}}, a new class of threats in which activation is temporally decoupled from trigger exposure. We propose that this \textbf{temporal dimension} is the key to unlocking a previously infeasible class of attacks: those that use common, everyday words as triggers. To examine the feasibility of this paradigm, we design and implement a proof-of-concept prototype, termed \underline{D}elayed Backdoor Attacks Based on \underline{N}onlinear \underline{D}ecay (DND). DND embeds a lightweight, stateful logic module that postpones activation until a configurable threshold is reached, producing a distinct latency phase followed by a controlled outbreak. We derive a formal model to characterize this latency behavior and propose a dual-metric evaluation framework (ASR and ASR$_{delay}$) to empirically measure the delay effect. Extensive experiments on four (natural language processing)NLP benchmarks validate the core capabilities of DND: it remains dormant for a controllable duration, sustains high clean accuracy ($\ge$94\%), and achieves near-perfect post-activation attack success rates ($\approx$99\%, The average of other methods is below 95\%.). Moreover, DND exhibits resilience against several state-of-the-art defenses. This study provides the first empirical evidence that the temporal dimension constitutes a viable yet unprotected attack surface in PTMs, underscoring the need for next-generation, stateful, and time-aware defense mechanisms.
- Abstract(参考訳): 事前訓練されたモデル(PTM)に対するバックドア攻撃は、伝統的に'即時仮定'の下で動作しており、悪意のある振る舞いはトリガー発生時に即座に現れる。
この作業は、アクティベーションがトリガー露光から一時的に切り離される新しいクラスの脅威である \textit{\textbf{Delayed Backdoor Attacks (DBA)}} を導入することで、このパラダイムを再考し、挑戦する。
我々は、この「textbf{temporal dimension}」が、これまで不可能だった攻撃のクラスをアンロックする鍵である、と提案する。
本パラダイムの実現可能性を検討するため, 概念実証プロトタイプを設計・実装し, 提案手法をDND(Shaunderline{N}onlinear \underline{D}ecay)に基づいて提案する。
DNDには軽量でステートフルなロジックモジュールが組み込まれており、設定可能なしきい値に達するまでアクティベーションを延期し、明確なレイテンシフェーズを生成し、コントロールされたアウトブレイクを発生させる。
この遅延挙動を特徴付けるための形式モデルを導出し、遅延効果を実証的に測定するための二重メトリック評価フレームワーク(ASRおよびASR$_{delay}$)を提案する。
4つの(自然言語処理)NLPベンチマークによる大規模な実験では、DNDのコア機能を検証する。コントロール可能な期間は休眠状態であり、高いクリーンな精度($94\%)を維持し、ほぼ完全なポストアクティベーション攻撃の成功率($99\%)を達成する。
)。
さらに、DNDはいくつかの最先端防衛に対して弾力性を示す。
本研究は, PTMにおいて時間的次元が有効でありながら無防備な攻撃面を構成することを示す最初の実証的証拠であり, 次世代, ステートフル, タイムアウェアの防御機構の必要性を裏付けるものである。
関連論文リスト
- Dashed Line Defense: Plug-And-Play Defense Against Adaptive Score-Based Query Attacks [3.206339985805037]
ダッシュラインディフェンス(Dashed Line Defense, DLD)は、適応的なクエリ戦略に対処するために設計された、プラグアンドプレイのポストプロセッシング手法である。
DLDは、観測された損失がどのように真の敵の強さを反映しているかの曖昧さを導入することで、攻撃者がクエリを確実に分析し、適応することを防ぐ。
我々は,DLDの防御能力を理論的に保証し,ImageNetの実験を通じてその有効性を検証する。
論文 参考訳(メタデータ) (2026-02-09T14:02:32Z) - Timestep-Compressed Attack on Spiking Neural Networks through Timestep-Level Backpropagation [5.234835661080496]
スパイキングニューラルネットワーク(SNN)に対する最先端の敵攻撃は、重大な制限に直面している。
本稿では,TCA(Timestep-compressed attack)を提案する。
論文 参考訳(メタデータ) (2025-08-19T13:17:15Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Temporal Robustness against Data Poisoning [69.01705108817785]
データ中毒は、悪意のあるトレーニングデータを通じて、敵対者が機械学習アルゴリズムの振る舞いを操作する場合を考慮している。
本研究では,攻撃開始時間と攻撃持続時間を測定する2つの新しい指標である耳線と持続時間を用いたデータ中毒の時間的脅威モデルを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:59:19Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。