論文の概要: Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging
- arxiv url: http://arxiv.org/abs/2511.10712v2
- Date: Thu, 20 Nov 2025 09:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 15:01:03.076669
- Title: Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging
- Title(参考訳): 私のモデルをマージするな! 認可されていないモデルマージに対するオープンソース LLM の保護
- Authors: Qinfeng Li, Miao Pan, Jintao Chen, Fu Teng, Zhiqiang Shen, Ge Su, Hao Peng, Xuhong Zhang,
- Abstract要約: 本稿では,無許可のマージを積極的に防止するプラグイン・アンド・プレイ・ディフェンスであるMergeBarrierを提案する。
実験により、MergeBarrierは、無視できる精度の損失を伴うモデルのマージ盗難を効果的に防いでいることが示された。
- 参考スコア(独自算出の注目度): 42.917732897026276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model merging has emerged as an efficient technique for expanding large language models (LLMs) by integrating specialized expert models. However, it also introduces a new threat: model merging stealing, where free-riders exploit models through unauthorized model merging. Unfortunately, existing defense mechanisms fail to provide effective protection. Specifically, we identify three critical protection properties that existing methods fail to simultaneously satisfy: (1) proactively preventing unauthorized merging; (2) ensuring compatibility with general open-source settings; (3) achieving high security with negligible performance loss. To address the above issues, we propose MergeBarrier, a plug-and-play defense that proactively prevents unauthorized merging. The core design of MergeBarrier is to disrupt the Linear Mode Connectivity (LMC) between the protected model and its homologous counterparts, thereby eliminating the low-loss path required for effective model merging. Extensive experiments show that MergeBarrier effectively prevents model merging stealing with negligible accuracy loss.
- Abstract(参考訳): モデルマージは、専門的な専門家モデルを統合することで、大規模言語モデル(LLM)を拡張するための効率的な手法として登場した。
フリーライダーは、無許可のモデルマージを通じてモデルを悪用する。
残念ながら、既存の防御機構は効果的な保護を提供していない。
具体的には,既存の手法が同時に満たさない3つの重要な保護特性を同定する。(1) 不正なマージを積極的に防止すること,(2) 一般的なオープンソース設定との互換性を確保すること,(3) 無視できる性能損失で高いセキュリティを実現すること。
上記の問題に対処するために,無許可のマージを積極的に防止するプラグイン・アンド・プレイ・ディフェンスであるMergeBarrierを提案する。
MergeBarrierの中核となる設計は、保護されたモデルとその相同なモデル間の線形モード接続性(LMC)を破壊し、効率的なモデルマージに必要な低損失パスを取り除くことである。
大規模な実験により、MergeBarrierは、無視できる精度の損失を伴うモデルのマージ盗難を効果的に防いでいることが示されている。
関連論文リスト
- Model Unmerging: Making Your Models Unmergeable for Secure Model Sharing [47.204542615541364]
無許可のマージは、開発者の権利を侵害し、機密個人情報を漏洩するリスクを負う可能性がある。
本稿では,モデルパラメータを乱してマージ不能にするアクティブプロテクション機構であるMergeLockを提案する。
MergeLockは、保護されたモデルに関わる場合、マージされたモデルの性能を95%以上低下させることができる。
論文 参考訳(メタデータ) (2025-09-01T15:24:41Z) - Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models [48.36985844329255]
LLM(Large Language Models)のモデルマージは、様々なタスクで微調整された異なるモデルのパラメータを直接フューズする。
オープンソースプラットフォームで利用可能なモデルに潜在的な脆弱性があるため、モデルマージはバックドア攻撃の影響を受けやすい。
LLMにマージされた最初のバックドア攻撃モデルであるMerge Hijackingを提案する。
論文 参考訳(メタデータ) (2025-05-29T15:37:23Z) - Disrupting Model Merging: A Parameter-Level Defense Without Sacrificing Accuracy [0.0]
モデルマージ(英: Model merging)は、複数の微調整されたモデルを、追加のトレーニングなしで単一のモデルに結合するテクニックである。
モデル透かしやフィンガープリントのような既存の方法は、後部視におけるマージのみを検出することができる。
本稿では,モデルマージに対する最初の積極的な防御法を提案する。
論文 参考訳(メタデータ) (2025-03-08T06:08:47Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。