論文の概要: Backdoor Unlearning by Linear Task Decomposition
- arxiv url: http://arxiv.org/abs/2510.14845v1
- Date: Thu, 16 Oct 2025 16:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.944838
- Title: Backdoor Unlearning by Linear Task Decomposition
- Title(参考訳): リニアタスク分割によるバックドアアンラーニング
- Authors: Amel Abdelraheem, Alessandro Favero, Gerome Bovet, Pascal Frossard,
- Abstract要約: ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
- 参考スコア(独自算出の注目度): 69.91984435094157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
- Abstract(参考訳): ファンデーションモデルは、様々なタスクにまたがる広範な一般化を可能にすることによって、コンピュータビジョンに革命をもたらした。
しかし、敵の摂動や攻撃対象のバックドア攻撃の影響を受けやすいままである。
モデルの大規模な性質が安全性を確保するために再トレーニングを禁止していることを考えると、このような脆弱性の修正は依然としてオープンな課題である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするためにコストのかかる微調整に依存しており、他の無関係なタスクのパフォーマンスを低下させることがある。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
本研究では、この問題に対処し、バックドアがモデルウェイト空間にどのようにエンコードされているかを調べ、それらが他の良性タスクから切り離されていることを確かめる。
具体的には、この分離により、クリーンなパフォーマンスへの影響を最小限に抑えたモデルに対するバックドアの影響の分離と消去が可能になる。
この知見に基づいて,このような絡み合いを生かした単純なアンラーニング手法を提案する。
CLIPモデルによる広範囲な実験と、一般的な敵対的トリガーにより、攻撃の知識から、我々の手法は、平均して96%のクリーンな精度を維持しながら、ほぼ完璧な未学習を達成できることが示されている。
さらに,攻撃とその存在が不明な場合でも,リバースエンジニアリングトリガを用いた適切な推定によりバックドアの解除に成功した。
全体として,本手法は,現在最先端の防御技術と比較して,学習の未学習とクリーンな精度のトレードオフを常に達成している。
関連論文リスト
- Enhancing the Effectiveness and Durability of Backdoor Attacks in Federated Learning through Maximizing Task Distinction [30.129506166655418]
フェデレーション学習は、複数の参加者がプライベートデータを共有せずに、協力的に中央モデルをトレーニングすることを可能にする。
バックドア攻撃により 攻撃者は 悪意のある行動を世界モデルに 埋め込むことができる 良心的な入力を 高い精度で維持する
本稿では,バックドアトリガを動的に最適化することにより,バックドアタスクをメインタスクから切り離す手法を提案する。
論文 参考訳(メタデータ) (2025-09-23T11:59:29Z) - Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation [3.54387829918311]
学習データに知覚不可能なテキストトリガーを注入することで、モデルが操作された出力を生成する。
本稿では, 対人的テキストトリガと有毒なアウトプットの関連を除去するために, クロスアテンション誘導による自己知識蒸留(SKD-CAG)を提案する。
本手法は,画素バックドアの除去精度を100%,スタイルベース攻撃の93%で達成し,ロバスト性や画像の忠実さを犠牲にしない。
論文 参考訳(メタデータ) (2025-08-20T00:57:21Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。