論文の概要: BadMerging: Backdoor Attacks Against Model Merging
- arxiv url: http://arxiv.org/abs/2408.07362v1
- Date: Wed, 14 Aug 2024 08:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:04:00.438663
- Title: BadMerging: Backdoor Attacks Against Model Merging
- Title(参考訳): BadMerging: モデルマージに対するバックドア攻撃
- Authors: Jinghuai Zhang, Jianfeng Chi, Zheng Li, Kunlin Cai, Yang Zhang, Yuan Tian,
- Abstract要約: 我々は、モデルマージン(MM)用に特別に設計された最初のバックドアアタックであるBadMergingを紹介する。
BadMergingは、2段階の攻撃機構と、組み込みバックドアの堅牢性を高めるための新しい特徴補間ベースの損失を含んでいる。
実験の結果,BadMergingは様々なMMアルゴリズムに対して顕著な攻撃を行うことがわかった。
- 参考スコア(独自算出の注目度): 17.797688491548175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained models for downstream tasks has led to a proliferation of open-sourced task-specific models. Recently, Model Merging (MM) has emerged as an effective approach to facilitate knowledge transfer among these independently fine-tuned models. MM directly combines multiple fine-tuned task-specific models into a merged model without additional training, and the resulting model shows enhanced capabilities in multiple tasks. Although MM provides great utility, it may come with security risks because an adversary can exploit MM to affect multiple downstream tasks. However, the security risks of MM have barely been studied. In this paper, we first find that MM, as a new learning paradigm, introduces unique challenges for existing backdoor attacks due to the merging process. To address these challenges, we introduce BadMerging, the first backdoor attack specifically designed for MM. Notably, BadMerging allows an adversary to compromise the entire merged model by contributing as few as one backdoored task-specific model. BadMerging comprises a two-stage attack mechanism and a novel feature-interpolation-based loss to enhance the robustness of embedded backdoors against the changes of different merging parameters. Considering that a merged model may incorporate tasks from different domains, BadMerging can jointly compromise the tasks provided by the adversary (on-task attack) and other contributors (off-task attack) and solve the corresponding unique challenges with novel attack designs. Extensive experiments show that BadMerging achieves remarkable attacks against various MM algorithms. Our ablation study demonstrates that the proposed attack designs can progressively contribute to the attack performance. Finally, we show that prior defense mechanisms fail to defend against our attacks, highlighting the need for more advanced defense.
- Abstract(参考訳): 下流タスクのための微調整済みモデルが、オープンソースのタスク固有モデルの普及につながっている。
近年,モデルマージング (MM) は,これら独立に調整されたモデル間の知識伝達を促進する効果的な手法として出現している。
MMは、複数の微調整されたタスク固有モデルを追加のトレーニングなしでマージモデルに直接結合し、その結果、複数のタスクで強化された機能を示す。
MMは優れたユーティリティを提供するが、敵が複数の下流タスクに影響を与えるためにMMを利用することができるため、セキュリティ上のリスクが伴う可能性がある。
しかし、MMのセキュリティリスクはほとんど研究されていない。
本稿では,新たな学習パラダイムとして,統合プロセスによる既存のバックドア攻撃に固有の課題を導入することを最初に見出した。
これらの課題に対処するために、MM用に特別に設計された最初のバックドアアタックであるBadMergingを紹介します。
特に、BadMergingは、1つのバックドアタスク固有のモデルへのコントリビュートによって、敵がマージされたモデル全体を妥協することを可能にする。
BadMergingは、2段階の攻撃機構と、異なるマージパラメータの変化に対する組込みバックドアの堅牢性を高めるために、新しい特徴補間ベースの損失を含む。
統合モデルは異なるドメインからのタスクを組み込むことができるため、BadMergingは敵(オンタスクアタック)や他のコントリビュータ(オフタスクアタック)によって提供されるタスクを共同で妥協し、新しいアタックデザインで対応する固有の課題を解決することができる。
大規模な実験により、BadMergingは様々なMMアルゴリズムに対する顕著な攻撃を達成している。
本研究は,提案した攻撃設計が攻撃性能に段階的に寄与することを示すものである。
最後に,従来の防衛機構が我々の攻撃に対して防御に失敗することを示し,より先進的な防衛の必要性を強調した。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making [10.425483543802846]
敵攻撃タスクは、事前訓練された言語モデル(PLM)が小さな摂動に弱いことを発見した。
本稿では, PLM に対する逆攻撃タスクを逐次決定問題としてモデル化する。
そこで本稿では,SDM-Attack と呼ばれる敵を発生させる適切な逐次攻撃経路を見つけるための強化学習を提案する。
論文 参考訳(メタデータ) (2023-05-27T10:33:53Z) - Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。
シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。
本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文 参考訳(メタデータ) (2023-05-20T03:07:43Z) - Defending Variational Autoencoders from Adversarial Attacks with MCMC [74.36233246536459]
変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。
以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。
本稿では, 敵攻撃構築のための目的関数について検討し, モデルのロバスト性を評価する指標を提案し, 解決策を提案する。
論文 参考訳(メタデータ) (2022-03-18T13:25:18Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。