論文の概要: When Safe Models Merge into Danger: Exploiting Latent Vulnerabilities in LLM Fusion
- arxiv url: http://arxiv.org/abs/2604.00627v1
- Date: Wed, 01 Apr 2026 08:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.906786
- Title: When Safe Models Merge into Danger: Exploiting Latent Vulnerabilities in LLM Fusion
- Title(参考訳): 安全モデルが危険にさらされる時 - LLM核融合における爆発的潜伏脆弱性-
- Authors: Jiaqing Li, Zhibo Zhang, Shide Zhou, Yuxi Li, Tianlong Yu, Kailong Wang,
- Abstract要約: モデルマージは、追加の訓練コストなしで複数の微調整 LLM の特殊能力を組み合わせるための強力な技術として登場した。
私たちはTrojanMergeというフレームワークを紹介します。これは、潜伏する悪意のあるコンポーネントをソースモデルに埋め込むフレームワークで、個別に良性のままですが、マージ時にひどいミスアライメントモデルを生成します。
- 参考スコア(独自算出の注目度): 15.004295056225002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging has emerged as a powerful technique for combining specialized capabilities from multiple fine-tuned LLMs without additional training costs. However, the security implications of this widely-adopted practice remain critically underexplored. In this work, we reveal that model merging introduces a novel attack surface that can be systematically exploited to compromise safety alignment. We present TrojanMerge,, a framework that embeds latent malicious components into source models that remain individually benign but produce severely misaligned models when merged. Our key insight is formulating this attack as a constrained optimization problem: we construct perturbations that preserve source model safety through directional consistency constraints, maintain capabilities via Frobenius directional alignment constraints, yet combine during merging to form pre-computed attack vectors. Extensive experiments across 9 LLMs from 3 model families demonstrate that TrojanMerge, consistently achieves high harmful response rates in merged models while source models maintain safety scores comparable to unmodified versions. Our attack succeeds across diverse merging algorithms and remains effective under various hyperparameter configurations. These findings expose fundamental vulnerabilities in current model merging practices and highlight the urgent need for security-aware mechanisms.
- Abstract(参考訳): モデルマージは、追加の訓練コストなしで複数の微調整 LLM の特殊能力を組み合わせるための強力な技術として登場した。
しかし、この広く受け入れられた慣行のセキュリティへの影響は、いまだに過小評価されている。
本研究では,モデルマージが新たな攻撃面を導入し,安全アライメントの妥協に系統的に活用できることを明らかにする。
私たちはTrojanMergeというフレームワークを紹介します。これは、潜伏する悪意のあるコンポーネントをソースモデルに埋め込むフレームワークで、個別に良性のままですが、マージ時にひどいミスアライメントモデルを生成します。
我々は、方向整合性制約を通じてソースモデルの安全性を保ち、フロベニウスの方向整合性制約を介して機能を維持するとともに、マージ時に結合して事前計算された攻撃ベクトルを形成する摂動を構築します。
3つのモデルファミリーの9つのLLMにわたる大規模な実験により、TrojanMergeはマージモデルにおいて常に高い有害応答率を達成する一方、ソースモデルは修正されていないバージョンに匹敵する安全性スコアを維持していることが示された。
我々の攻撃は、様々なマージアルゴリズムにまたがって成功し、様々なハイパーパラメータ構成の下で有効である。
これらの発見は、現在のモデルマージプラクティスにおける根本的な脆弱性を明らかにし、セキュリティ対応メカニズムの緊急性を強調している。
関連論文リスト
- Unsafe by Reciprocity: How Generation-Understanding Coupling Undermines Safety in Unified Multimodal Models [53.41258113970795]
統一マルチモーダルモデル(UMM)における相互機能相互性自体が脆弱性の構造的源となっているかを検討する。
相互相互作用に基づくクロスファンクショナル・ファンクショナル・エクスプロイテーションは, 理解と生成の間の双方向の相互作用を明示的に活用する, 新たな攻撃パラダイムである。
論文 参考訳(メタデータ) (2026-03-28T16:28:39Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文 参考訳(メタデータ) (2024-06-30T16:05:31Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。