Fugu-MT 論文翻訳(概要): BadMerging: Backdoor Attacks Against Model Merging

論文の概要: BadMerging: Backdoor Attacks Against Model Merging

arxiv url: http://arxiv.org/abs/2408.07362v1
Date: Wed, 14 Aug 2024 08:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 14:04:00.438663
Title: BadMerging: Backdoor Attacks Against Model Merging
Title（参考訳）: BadMerging: モデルマージに対するバックドア攻撃
Authors: Jinghuai Zhang, Jianfeng Chi, Zheng Li, Kunlin Cai, Yang Zhang, Yuan Tian,
Abstract要約: 我々は、モデルマージン(MM)用に特別に設計された最初のバックドアアタックであるBadMergingを紹介する。 BadMergingは、2段階の攻撃機構と、組み込みバックドアの堅牢性を高めるための新しい特徴補間ベースの損失を含んでいる。実験の結果,BadMergingは様々なMMアルゴリズムに対して顕著な攻撃を行うことがわかった。
参考スコア（独自算出の注目度）: 17.797688491548175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning pre-trained models for downstream tasks has led to a proliferation of open-sourced task-specific models. Recently, Model Merging (MM) has emerged as an effective approach to facilitate knowledge transfer among these independently fine-tuned models. MM directly combines multiple fine-tuned task-specific models into a merged model without additional training, and the resulting model shows enhanced capabilities in multiple tasks. Although MM provides great utility, it may come with security risks because an adversary can exploit MM to affect multiple downstream tasks. However, the security risks of MM have barely been studied. In this paper, we first find that MM, as a new learning paradigm, introduces unique challenges for existing backdoor attacks due to the merging process. To address these challenges, we introduce BadMerging, the first backdoor attack specifically designed for MM. Notably, BadMerging allows an adversary to compromise the entire merged model by contributing as few as one backdoored task-specific model. BadMerging comprises a two-stage attack mechanism and a novel feature-interpolation-based loss to enhance the robustness of embedded backdoors against the changes of different merging parameters. Considering that a merged model may incorporate tasks from different domains, BadMerging can jointly compromise the tasks provided by the adversary (on-task attack) and other contributors (off-task attack) and solve the corresponding unique challenges with novel attack designs. Extensive experiments show that BadMerging achieves remarkable attacks against various MM algorithms. Our ablation study demonstrates that the proposed attack designs can progressively contribute to the attack performance. Finally, we show that prior defense mechanisms fail to defend against our attacks, highlighting the need for more advanced defense.
Abstract（参考訳）: 下流タスクのための微調整済みモデルが、オープンソースのタスク固有モデルの普及につながっている。近年,モデルマージング (MM) は,これら独立に調整されたモデル間の知識伝達を促進する効果的な手法として出現している。 MMは、複数の微調整されたタスク固有モデルを追加のトレーニングなしでマージモデルに直接結合し、その結果、複数のタスクで強化された機能を示す。 MMは優れたユーティリティを提供するが、敵が複数の下流タスクに影響を与えるためにMMを利用することができるため、セキュリティ上のリスクが伴う可能性がある。しかし、MMのセキュリティリスクはほとんど研究されていない。本稿では,新たな学習パラダイムとして,統合プロセスによる既存のバックドア攻撃に固有の課題を導入することを最初に見出した。これらの課題に対処するために、MM用に特別に設計された最初のバックドアアタックであるBadMergingを紹介します。特に、BadMergingは、1つのバックドアタスク固有のモデルへのコントリビュートによって、敵がマージされたモデル全体を妥協することを可能にする。 BadMergingは、2段階の攻撃機構と、異なるマージパラメータの変化に対する組込みバックドアの堅牢性を高めるために、新しい特徴補間ベースの損失を含む。統合モデルは異なるドメインからのタスクを組み込むことができるため、BadMergingは敵(オンタスクアタック)や他のコントリビュータ(オフタスクアタック)によって提供されるタスクを共同で妥協し、新しいアタックデザインで対応する固有の課題を解決することができる。大規模な実験により、BadMergingは様々なMMアルゴリズムに対する顕著な攻撃を達成している。本研究は,提案した攻撃設計が攻撃性能に段階的に寄与することを示すものである。最後に,従来の防衛機構が我々の攻撃に対して防御に失敗することを示し,より先進的な防衛の必要性を強調した。

関連論文リスト

Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models [48.36985844329255]
LLM(Large Language Models)のモデルマージは、様々なタスクで微調整された異なるモデルのパラメータを直接フューズする。オープンソースプラットフォームで利用可能なモデルに潜在的な脆弱性があるため、モデルマージはバックドア攻撃の影響を受けやすい。 LLMにマージされた最初のバックドア攻撃モデルであるMerge Hijackingを提案する。
論文参考訳（メタデータ） (2025-05-29T15:37:23Z)
Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文参考訳（メタデータ） (2025-02-22T05:34:53Z)
LoBAM: LoRA-Based Backdoor Attack on Model Merging [27.57659381949931]
モデルマージ(Model merging)は、異なるタスクに微調整された複数のモデルを統合して、複数のドメインにまたがる汎用モデルを作成する、新たなテクニックである。既存の研究は、かなりの計算資源を仮定することで、そのような攻撃のリスクを実証しようとするものである。最小限のトレーニングリソースで高い攻撃成功率を得る方法であるLoBAMを提案する。
論文参考訳（メタデータ） (2024-11-23T20:41:24Z)
Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文参考訳（メタデータ） (2024-10-17T00:13:31Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
On the Robustness of Large Multimodal Models Against Image Adversarial Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。一般的に,LMMは視覚的逆入力に対して頑健ではない。本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-06T04:59:56Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文参考訳（メタデータ） (2023-07-20T03:56:04Z)
Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文参考訳（メタデータ） (2023-05-20T03:07:43Z)
Defending Variational Autoencoders from Adversarial Attacks with MCMC [74.36233246536459]
変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。本稿では, 敵攻撃構築のための目的関数について検討し, モデルのロバスト性を評価する指標を提案し, 解決策を提案する。
論文参考訳（メタデータ） (2022-03-18T13:25:18Z)
Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文参考訳（メタデータ） (2021-09-05T03:27:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。