論文の概要: RogueMerge: Robust and Unified Attacks against LLM Model Merging
- arxiv url: http://arxiv.org/abs/2606.03344v1
- Date: Tue, 02 Jun 2026 08:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.883881
- Title: RogueMerge: Robust and Unified Attacks against LLM Model Merging
- Title(参考訳): RogueMerge: LLMモデル統合に対するロバストで統一的な攻撃
- Authors: Jinghuai Zhang, Yetian He, Kunlin Cai, Han Zhao, Fnu Suya, Yuan Tian,
- Abstract要約: RogueMergeは、モデルマージ攻撃のための原則化された統一されたフレームワークである。
4つの脅威にまたがって、既存の攻撃を継続的に上回ります。
様々な統合設定で安定し、標準的な防御に抵抗する。
- 参考スコア(独自算出の注目度): 16.43903795600829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging composes specialized capabilities into a single LLM by aggregating task vectors sourced from unverified public platforms, exposing a critical supply-chain attack surface: Because any malicious behavior can be encoded into a task vector, and merging grants third-party vectors direct write access to model weights, an attacker-provided task vector can enable or amplify diverse downstream threats. Prior work studies only backdoor attacks against model merging for classifiers using static arithmetic heuristics, which fail to effectively handle diverse attacks on generative LLMs for three reasons. (i) LLMs rely on autoregressive decoding, where the minor parameter drift introduced by merging compounds across tokens and rapidly degrades the attack. (ii) Attackers have no knowledge of the victim's merging configurations, causing a static attack vector optimized in isolation to be easily diluted or destroyed. (iii) Practical threat induction must generalize to attack prompts unseen during optimization, which static vectors cannot adequately encode. We present RogueMerge, the first principled, unified framework that addresses all three challenges. To handle autoregressive generation, we replace static arithmetic with a joint optimization that explicitly enforces attack success after merging. To handle unknown merging settings, we formulate attack injection as a stochastic min-max problem and solve it via meta-learning-style simulation. To generalize across heterogeneous attack prompts, we employ distributionally robust optimization and derive a tractable first-order Taylor approximation at LLM scale, with a provable error bound. Across four threats, six merging algorithms, and over 170 merged LLMs, RogueMerge consistently outperforms existing attacks. It also remains stable across diverse merging settings and resists standard defenses.
- Abstract(参考訳): Model mergingは、未検証のパブリックプラットフォームから生成されたタスクベクターを集約し、重要なサプライチェーン攻撃面を公開することで、単一のLCMに特別な機能を構成する。
これまでの研究では、静的算術ヒューリスティックを用いた分類器のモデルマージに対するバックドア攻撃しか行わなかったが、3つの理由から生成LDMに対する多様な攻撃を効果的に処理できなかった。
i) LLM は自己回帰復号化に依存しており、トークン間で化合物をマージすることによって引き起こされる小さなパラメータドリフトは、攻撃を急速に劣化させる。
(ii)攻撃者は、被害者のマージ構成を知らないため、独立して最適化された静的攻撃ベクトルを簡単に希釈したり、破壊したりすることができる。
(iii) 静的ベクトルが適切にエンコードできない最適化中に見つからないプロンプトを攻撃するために、実用的な脅威誘導が一般化されなければならない。
RogueMergeは,3つの課題すべてに対処する,最初の原則付き統合フレームワークです。
自動回帰生成を扱うために、静的演算を統合後の攻撃成功を明示的に強制する共同最適化に置き換える。
未知のマージ設定に対処するために、攻撃注入を確率的なmin-max問題として定式化し、メタラーニングスタイルのシミュレーションにより解決する。
不均一な攻撃プロンプトを一般化するために、分布的に頑健な最適化を採用し、LLMスケールでの1次テイラー近似を証明可能な誤差境界で導出する。
4つの脅威と6つのマージアルゴリズム、および170以上のマージLDMに対して、RogueMergeは、既存の攻撃を一貫して上回っている。
また、様々な統合設定で安定しており、標準的な防御に抵抗する。
関連論文リスト
- Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs [23.226094056337075]
本稿では2つの相補的戦略からなる統合最適化トリガー攻撃フレームワークを提案する。
ある戦略は、モデルがコンパイルされたときにのみ、特定の入力の予測を反転させる。
もうひとつは、コンパイルされていない実行では停止しないが、コンパイルの最適化が適用されれば任意の入力をハイジャックするユニバーサルトリガーである。
論文 参考訳(メタデータ) (2026-05-20T02:55:56Z) - ARMOR: Agentic Reasoning for Methods Orchestration and Reparameterization for Robust Adversarial Attacks [28.44035744358622]
ARMORは3つの正反対プリミティブ、Carini-Wagner(CW)、Jacobian-based Saliency Map Attack(JSMA)、空間変換攻撃(STA)を編成する。
標準ベンチマークでは、ARMORはアーキテクチャ間転送の改善を実現し、両方の設定を確実に騙す。
論文 参考訳(メタデータ) (2026-01-26T11:36:34Z) - The Trojan in the Vocabulary: Stealthy Sabotage of LLM Composition [31.827344197678126]
トケナイザー移植はサプライチェーンの脆弱性を導入する。
係数再利用の幾何学を利用して、我々の攻撃は非対称的な実現可能性ギャップを生み出す。
実験的に、攻撃は訓練なしで、スペクトルの模倣を達成し、異常検出を回避する。
論文 参考訳(メタデータ) (2025-12-31T19:00:03Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。