論文の概要: Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23561v1
- Date: Thu, 29 May 2025 15:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.948052
- Title: Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models
- Title(参考訳): Merge Hijacking: 大規模な言語モデルのマージをモデル化するためのバックドアアタック
- Authors: Zenghui Yuan, Yangming Xu, Jiawen Shi, Pan Zhou, Lichao Sun,
- Abstract要約: LLM(Large Language Models)のモデルマージは、様々なタスクで微調整された異なるモデルのパラメータを直接フューズする。
オープンソースプラットフォームで利用可能なモデルに潜在的な脆弱性があるため、モデルマージはバックドア攻撃の影響を受けやすい。
LLMにマージされた最初のバックドア攻撃モデルであるMerge Hijackingを提案する。
- 参考スコア(独自算出の注目度): 48.36985844329255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging for Large Language Models (LLMs) directly fuses the parameters of different models finetuned on various tasks, creating a unified model for multi-domain tasks. However, due to potential vulnerabilities in models available on open-source platforms, model merging is susceptible to backdoor attacks. In this paper, we propose Merge Hijacking, the first backdoor attack targeting model merging in LLMs. The attacker constructs a malicious upload model and releases it. Once a victim user merges it with any other models, the resulting merged model inherits the backdoor while maintaining utility across tasks. Merge Hijacking defines two main objectives-effectiveness and utility-and achieves them through four steps. Extensive experiments demonstrate the effectiveness of our attack across different models, merging algorithms, and tasks. Additionally, we show that the attack remains effective even when merging real-world models. Moreover, our attack demonstrates robustness against two inference-time defenses (Paraphrasing and CLEANGEN) and one training-time defense (Fine-pruning).
- Abstract(参考訳): LLM(Large Language Models)のモデルマージは、様々なタスクで微調整されたモデルのパラメータを直接融合し、マルチドメインタスクのための統一モデルを作成する。
しかし、オープンソースプラットフォームで利用可能なモデルに潜在的な脆弱性があるため、モデルマージはバックドア攻撃の影響を受けやすい。
本稿では,LLMにおける最初のバックドア攻撃モデルであるMerge Hijackingを提案する。
攻撃者は悪意のあるアップロードモデルを構築し、それをリリースする。
被害者のユーザが他のモデルとマージすると、マージされたモデルがバックドアを継承し、タスク間のユーティリティを維持します。
Merge Hijacking氏は、効果と実用性という2つの主要な目標を定義し、4つのステップを通じてそれらを達成している。
大規模な実験では、異なるモデル、マージアルゴリズム、タスクに対する攻撃の有効性が示されています。
さらに,実世界のモデルを統合する場合でも,この攻撃は有効であることを示す。
さらに,本攻撃は,2つの推論時防御(パラフラッシングとCLEANGEN)と1つの訓練時防御(Fine-pruning)に対する堅牢性を示す。
関連論文リスト
- Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - LoBAM: LoRA-Based Backdoor Attack on Model Merging [27.57659381949931]
モデルマージ(Model merging)は、異なるタスクに微調整された複数のモデルを統合して、複数のドメインにまたがる汎用モデルを作成する、新たなテクニックである。
既存の研究は、かなりの計算資源を仮定することで、そのような攻撃のリスクを実証しようとするものである。
最小限のトレーニングリソースで高い攻撃成功率を得る方法であるLoBAMを提案する。
論文 参考訳(メタデータ) (2024-11-23T20:41:24Z) - BadMerging: Backdoor Attacks Against Model Merging [17.797688491548175]
我々は、モデルマージン(MM)用に特別に設計された最初のバックドアアタックであるBadMergingを紹介する。
BadMergingは、2段階の攻撃機構と、組み込みバックドアの堅牢性を高めるための新しい特徴補間ベースの損失を含んでいる。
実験の結果,BadMergingは様々なMMアルゴリズムに対して顕著な攻撃を行うことがわかった。
論文 参考訳(メタデータ) (2024-08-14T08:19:23Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。