論文の概要: Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace
- arxiv url: http://arxiv.org/abs/2410.13910v1
- Date: Thu, 17 Oct 2024 00:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:30.821410
- Title: Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace
- Title(参考訳): 安全意識サブスペースによるマルチタスクモデルマージにおけるバックドア効果の緩和
- Authors: Jinluan Yang, Anke Tang, Didi Zhu, Zhengyu Chen, Li Shen, Fei Wu,
- Abstract要約: 本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
- 参考スコア(独自算出の注目度): 15.457992715866995
- License:
- Abstract: Model merging has gained significant attention as a cost-effective approach to integrate multiple single-task fine-tuned models into a unified one that can perform well on multiple tasks. However, existing model merging techniques primarily focus on resolving conflicts between task-specific models, they often overlook potential security threats, particularly the risk of backdoor attacks in the open-source model ecosystem. In this paper, we first investigate the vulnerabilities of existing model merging methods to backdoor attacks, identifying two critical challenges: backdoor succession and backdoor transfer. To address these issues, we propose a novel Defense-Aware Merging (DAM) approach that simultaneously mitigates task interference and backdoor vulnerabilities. Specifically, DAM employs a meta-learning-based optimization method with dual masks to identify a shared and safety-aware subspace for model merging. These masks are alternately optimized: the Task-Shared mask identifies common beneficial parameters across tasks, aiming to preserve task-specific knowledge while reducing interference, while the Backdoor-Detection mask isolates potentially harmful parameters to neutralize security threats. This dual-mask design allows us to carefully balance the preservation of useful knowledge and the removal of potential vulnerabilities. Compared to existing merging methods, DAM achieves a more favorable balance between performance and security, reducing the attack success rate by 2-10 percentage points while sacrificing only about 1% in accuracy. Furthermore, DAM exhibits robust performance and broad applicability across various types of backdoor attacks and the number of compromised models involved in the merging process. We will release the codes and models soon.
- Abstract(参考訳): モデルマージは、複数の単一タスクの微調整されたモデルを複数のタスクでうまく機能する統一モデルに統合するためのコスト効率のよいアプローチとして、大きな注目を集めている。
しかし、既存のモデルマージ技術は主にタスク固有のモデル間の衝突を解決することに焦点を当てており、セキュリティ上の脅威、特にオープンソースのモデルエコシステムにおけるバックドア攻撃のリスクを見落としていることが多い。
本稿では,バックドア攻撃に対する既存のモデルマージ手法の脆弱性を最初に調査し,バックドア継承とバックドア転送の2つの重要な課題を特定する。
これらの課題に対処するために,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAMアプローチを提案する。
具体的には、モデルマージのための共有および安全を意識したサブスペースを特定するために、デュアルマスクを用いたメタラーニングに基づく最適化手法を用いる。
これらのマスクは交互に最適化されている: Task-Shared マスクはタスク間で共通の有益なパラメータを識別し、タスク固有の知識を保護し、干渉を低減し、Backdoor-Detection マスクは潜在的に有害なパラメータを分離してセキュリティ脅威を中和する。
このデュアルマスク設計により、有用な知識の保存と潜在的な脆弱性の除去を慎重にバランスできる。
既存のマージ手法と比較して、DAMは性能とセキュリティのバランスが良く、攻撃成功率を2~10ポイント削減し、精度は1%程度しか犠牲にしない。
さらに、DAMは、様々な種類のバックドアアタックと、マージプロセスに関わる妥協されたモデルの数にまたがって、堅牢なパフォーマンスと幅広い適用性を示す。
まもなくコードとモデルをリリースします。
関連論文リスト
- Dual-Model Defense: Safeguarding Diffusion Models from Membership Inference Attacks through Disjoint Data Splitting [6.984396318800444]
拡散モデルは、メンバーシップ推論攻撃(MIA)に弱いことが証明されている。
本稿では,MIAに対して拡散モデルを保護するための新しい2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-22T03:02:29Z) - Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。
本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - BadMerging: Backdoor Attacks Against Model Merging [17.797688491548175]
我々は、モデルマージン(MM)用に特別に設計された最初のバックドアアタックであるBadMergingを紹介する。
BadMergingは、2段階の攻撃機構と、組み込みバックドアの堅牢性を高めるための新しい特徴補間ベースの損失を含んでいる。
実験の結果,BadMergingは様々なMMアルゴリズムに対して顕著な攻撃を行うことがわかった。
論文 参考訳(メタデータ) (2024-08-14T08:19:23Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。
シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。
本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文 参考訳(メタデータ) (2023-05-20T03:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。