論文の概要: REFINE: Inversion-Free Backdoor Defense via Model Reprogramming
- arxiv url: http://arxiv.org/abs/2502.18508v1
- Date: Sat, 22 Feb 2025 07:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:58.144105
- Title: REFINE: Inversion-Free Backdoor Defense via Model Reprogramming
- Title(参考訳): ReFINE: モデル再プログラミングによるインバージョンフリーのバックドアディフェンス
- Authors: Yukun Chen, Shuo Shao, Enhao Huang, Yiming Li, Pin-Yu Chen, Zhan Qin, Kui Ren,
- Abstract要約: ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
- 参考スコア(独自算出の注目度): 60.554146386198376
- License:
- Abstract: Backdoor attacks on deep neural networks (DNNs) have emerged as a significant security threat, allowing adversaries to implant hidden malicious behaviors during the model training phase. Pre-processing-based defense, which is one of the most important defense paradigms, typically focuses on input transformations or backdoor trigger inversion (BTI) to deactivate or eliminate embedded backdoor triggers during the inference process. However, these methods suffer from inherent limitations: transformation-based defenses often fail to balance model utility and defense performance, while BTI-based defenses struggle to accurately reconstruct trigger patterns without prior knowledge. In this paper, we propose REFINE, an inversion-free backdoor defense method based on model reprogramming. REFINE consists of two key components: \textbf{(1)} an input transformation module that disrupts both benign and backdoor patterns, generating new benign features; and \textbf{(2)} an output remapping module that redefines the model's output domain to guide the input transformations effectively. By further integrating supervised contrastive loss, REFINE enhances the defense capabilities while maintaining model utility. Extensive experiments on various benchmark datasets demonstrate the effectiveness of our REFINE and its resistance to potential adaptive attacks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)に対するバックドア攻撃は重大なセキュリティ上の脅威として現れており、モデルトレーニングフェーズ中に敵が隠された悪意のある振る舞いを埋め込むことができる。
プリプロセスベースの防衛は、最も重要な防御パラダイムの1つであり、典型的には、推論プロセス中に組み込まれたバックドアトリガーを非活性化または除去するために、入力変換またはバックドアトリガーインバージョン(BTI)に焦点を当てている。
しかし、これらの手法には固有の制限がある: 変換ベースの防御はモデルユーティリティと防御性能のバランスが取れず、BTIベースの防御は事前の知識なしにトリガパターンを正確に再構築するのに苦労する。
本稿では,モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
REFINEは2つの主要なコンポーネントから構成される: \textbf{(1)} ベニグナパターンとバックドアパターンの両方を破壊し、新しいベニグナ特徴を生成する入力変換モジュール、および \textbf{(2)} モデルの出力ドメインを再定義して入力変換を効果的に導く出力再マッピングモジュール。
教師付きコントラスト損失をさらに統合することにより、REFINEはモデルユーティリティを維持しながら防御能力を向上する。
様々なベンチマークデータセットに対する大規模な実験は、我々のREFINEの有効性と、潜在的な適応攻撃に対する抵抗性を実証している。
関連論文リスト
- Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Enhancing Fine-Tuning Based Backdoor Defense with Sharpness-Aware
Minimization [27.964431092997504]
良性データに基づく微調整は、バックドアモデルにおけるバックドア効果を消去するための自然な防御である。
本研究では, バックドア関連ニューロンのノルムを小さくするために, 微調整によるシャープネス認識最小化を取り入れた新しいバックドア防御パラダイムFTSAMを提案する。
論文 参考訳(メタデータ) (2023-04-24T05:13:52Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Turning a Curse into a Blessing: Enabling In-Distribution-Data-Free
Backdoor Removal via Stabilized Model Inversion [27.294396320665594]
モデル逆転のための二段階最適化に基づく新しいフレームワークを提案する。
事前学習した発電機の潜伏空間から得られたサンプルは, バックドアモデルからの信号を利用した場合であっても, バックドアフリーであることが判明した。
論文 参考訳(メタデータ) (2022-06-14T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。