論文の概要: Making Models Unmergeable via Scaling-Sensitive Loss Landscape
- arxiv url: http://arxiv.org/abs/2601.21898v1
- Date: Thu, 29 Jan 2026 15:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.962839
- Title: Making Models Unmergeable via Scaling-Sensitive Loss Landscape
- Title(参考訳): スケーリング型ロスランドスケープによるモデル統合の不可能化
- Authors: Minwoo Jang, Hoyoung Kim, Jabin Koo, Jungseul Ok,
- Abstract要約: textscTrap$2$は、アダプタやフルモデルとしてリリースされるかどうかに関わらず、微調整中にアップデートに保護をエンコードする。
textscTrap$2$は、マージプロセスの単純なプロキシとして重み付け再スケーリングを使用する。
- 参考スコア(独自算出の注目度): 27.034832184399992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of model hubs has made it easier to access reusable model components, making model merging a practical tool for combining capabilities. Yet, this modularity also creates a \emph{governance gap}: downstream users can recompose released weights into unauthorized mixtures that bypass safety alignment or licensing terms. Because existing defenses are largely post-hoc and architecture-specific, they provide inconsistent protection across diverse architectures and release formats in practice. To close this gap, we propose \textsc{Trap}$^{2}$, an architecture-agnostic protection framework that encodes protection into the update during fine-tuning, regardless of whether they are released as adapters or full models. Instead of relying on architecture-dependent approaches, \textsc{Trap}$^{2}$ uses weight re-scaling as a simple proxy for the merging process. It keeps released weights effective in standalone use, but degrades them under re-scaling that often arises in merging, undermining unauthorized merging.
- Abstract(参考訳): モデルハブの台頭により、再利用可能なモデルコンポーネントへのアクセスが容易になり、モデルのマージが機能を組み合わせるための実用的なツールになった。
下流のユーザは、解放されたウェイトを、安全アライメントやライセンス条項をバイパスする未許可のミックスに分解することができます。
既存のディフェンスは、主にポストホックでアーキテクチャ固有のため、さまざまなアーキテクチャやリリースフォーマットを横断する一貫性のない保護を提供する。
このギャップを埋めるために、我々はアーキテクチャに依存しない保護フレームワークである \textsc{Trap}$^{2}$ を提案する。
アーキテクチャに依存したアプローチに頼る代わりに、 \textsc{Trap}$^{2}$は、マージプロセスの単純なプロキシとして重み付け再スケーリングを使用する。
スタンドアローンの使用で効果的にウェイトをリリースし続けるが、マージ時にしばしば発生する再スケーリングの下でそれらを分解し、無許可マージを損なう。
関連論文リスト
- The Trojan in the Vocabulary: Stealthy Sabotage of LLM Composition [31.827344197678126]
トケナイザー移植はサプライチェーンの脆弱性を導入する。
係数再利用の幾何学を利用して、我々の攻撃は非対称的な実現可能性ギャップを生み出す。
実験的に、攻撃は訓練なしで、スペクトルの模倣を達成し、異常検出を回避する。
論文 参考訳(メタデータ) (2025-12-31T19:00:03Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - Defending Unauthorized Model Merging via Dual-Stage Weight Protection [7.855764642324112]
フリーライダーは、微調整されたモデルを認可なしで新しいマルチキャパビリティモデルに組み合わせる。
MergeGuardは、タスクの忠実さを維持しながら、マージ互換性を損なうフレームワークである。
MergeGuardはマージモデルの精度を最大90%削減し、保護モデルの性能損失は1.5%以下であることを示す。
論文 参考訳(メタデータ) (2025-11-14T20:16:00Z) - Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging [42.917732897026276]
本稿では,無許可のマージを積極的に防止するプラグイン・アンド・プレイ・ディフェンスであるMergeBarrierを提案する。
実験により、MergeBarrierは、無視できる精度の損失を伴うモデルのマージ盗難を効果的に防いでいることが示された。
論文 参考訳(メタデータ) (2025-11-13T09:45:47Z) - Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models [63.54707418559388]
ソフトウェアバージョンのような大型言語モデル(LLM)に対するパッチを提案する。
提案手法は,既存のモデルにコンパクトで学習可能なプレフィックスを前もって,迅速な修復を可能にする。
論文 参考訳(メタデータ) (2025-11-11T17:25:44Z) - Model Unmerging: Making Your Models Unmergeable for Secure Model Sharing [47.204542615541364]
無許可のマージは、開発者の権利を侵害し、機密個人情報を漏洩するリスクを負う可能性がある。
本稿では,モデルパラメータを乱してマージ不能にするアクティブプロテクション機構であるMergeLockを提案する。
MergeLockは、保護されたモデルに関わる場合、マージされたモデルの性能を95%以上低下させることができる。
論文 参考訳(メタデータ) (2025-09-01T15:24:41Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。