論文の概要: GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
- arxiv url: http://arxiv.org/abs/2512.21008v1
- Date: Wed, 24 Dec 2025 07:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.710723
- Title: GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
- Title(参考訳): GateBreaker:エクスプロイト・オブ・エクスプロイトのLLMに対するゲート誘導攻撃
- Authors: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi,
- Abstract要約: GateBreakerは、トレーニング不要で、軽量で、アーキテクチャに依存しない最初のアタックフレームワークです。
GateBreakerは、現代のMoE LLMの安全アライメントを推論時に妥協する。
本研究により,MoEの安全性はスパースルーティングによって調整された神経細胞の小さなサブセットに集中していることが判明した。
- 参考スコア(独自算出の注目度): 24.327693899810615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures have advanced the scaling of Large Language Models (LLMs) by activating only a sparse subset of parameters per input, enabling state-of-the-art performance with reduced computational cost. As these models are increasingly deployed in critical domains, understanding and strengthening their alignment mechanisms is essential to prevent harmful outputs. However, existing LLM safety research has focused almost exclusively on dense architectures, leaving the unique safety properties of MoEs largely unexamined. The modular, sparsely-activated design of MoEs suggests that safety mechanisms may operate differently than in dense models, raising questions about their robustness. In this paper, we present GateBreaker, the first training-free, lightweight, and architecture-agnostic attack framework that compromises the safety alignment of modern MoE LLMs at inference time. GateBreaker operates in three stages: (i) gate-level profiling, which identifies safety experts disproportionately routed on harmful inputs, (ii) expert-level localization, which localizes the safety structure within safety experts, and (iii) targeted safety removal, which disables the identified safety structure to compromise the safety alignment. Our study shows that MoE safety concentrates within a small subset of neurons coordinated by sparse routing. Selective disabling of these neurons, approximately 3% of neurons in the targeted expert layers, significantly increases the averaged attack success rate (ASR) from 7.4% to 64.9% against the eight latest aligned MoE LLMs with limited utility degradation. These safety neurons transfer across models within the same family, raising ASR from 17.9% to 67.7% with one-shot transfer attack. Furthermore, GateBreaker generalizes to five MoE vision language models (VLMs) with 60.9% ASR on unsafe image inputs.
- Abstract(参考訳): Mixture-of-Experts (MoE) アーキテクチャは、入力あたりのパラメータのスパースサブセットのみを活性化し、計算コストを削減して最先端のパフォーマンスを実現することで、Large Language Models (LLMs) のスケーリングを進歩させた。
これらのモデルが重要領域にますます展開されるにつれて、有害な出力を防ぐために、それらのアライメントメカニズムの理解と強化が不可欠である。
しかし、既存のLLM安全性研究は、主に密集したアーキテクチャに焦点を合わせており、MoEのユニークな安全性特性はほとんど検討されていない。
MoEsのモジュール的かつ疎活性な設計は、安全性のメカニズムが密度の高いモデルとは異なる動作をすることができることを示唆し、その堅牢性に関する疑問を提起している。
本稿では,GateBreakerについて紹介する。GateBreakerはトレーニングフリーで軽量でアーキテクチャに依存しない最初の攻撃フレームワークで,現代のMOE LLMの安全アライメントを推論時に損なう。
GateBreakerは3つの段階に分かれている。
一 有害な入力に不当にルーティングされた安全の専門家を識別するゲートレベルのプロファイリング
(二)安全専門家の安全構造をローカライズする専門家レベルのローカライゼーション及び
三 安全の確保を目的とし、特定された安全構造を無効にし、安全アライメントを損なう。
本研究により,MoEの安全性はスパースルーティングによって調整された神経細胞の小さなサブセットに集中していることが判明した。
これらのニューロンを選択的に無効にすると、標的とする専門家層内の神経細胞の約3%が攻撃成功率(ASR)を7.4%から64.9%に引き上げた。
これらの安全性ニューロンは、同じファミリー内のモデル間で移動し、単発移動攻撃でASRを17.9%から67.7%に上昇させた。
さらにGateBreakerは、安全でない画像入力に対して60.9%のASRを持つ5つのMoEビジョン言語モデル(VLM)を一般化している。
関連論文リスト
- SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment [15.402485173557352]
大規模言語モデル(LLM)に適した安全な微調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることによって、ルーティングドリフトを直接緩和する。
実験の結果、SafeMoEはHFT攻撃を効果的に軽減し、OLMoEの有害度スコアを62.0から5.0に下げた。
論文 参考訳(メタデータ) (2025-09-26T04:10:32Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。