論文の概要: Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
- arxiv url: http://arxiv.org/abs/2602.08741v1
- Date: Mon, 09 Feb 2026 14:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.303071
- Title: Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
- Title(参考訳): 大規模言語ロブトミー:専門家のサイレンシングを通したミクチャー・オブ・エキスパートのジェイルブレイク
- Authors: Jona te Lintelo, Lichao Wu, Stjepan Picek,
- Abstract要約: トレーニング不要でアーキテクチャに依存しない攻撃であるLarge Language Lobotomy (L$3$)を提案する。
L$3$は、拒絶と相関するルーティングパターンを学び、特定の専門家に安全行動の属性を与え、有害なアウトプットが生成されるまで、最も安全に関連する専門家を適応的に沈黙させる。
我々は8つの最先端オープンソースMoE LLMに対して3ドルの評価を行い、アダプティブエキスパートサイレンシングが平均攻撃成功率を7.3%から70.4%に引き上げ、86.3%まで向上し、事前トレーニングなしの成績を上回ったことを示す。
- 参考スコア(独自算出の注目度): 14.891975420982504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L$^3$), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L$^3$ learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L$^3$ on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.
- Abstract(参考訳): Mixture-of-Experts (MoE) アーキテクチャの急速な採用は、Large Language Models (LLM) の展開において大きな変化となった。
MoE LLMはトークン当たりのパラメータの小さなサブセットのみを活性化することでスケーリング効率を向上させるが、ルーティング構造は新しい安全攻撃面を導入している。
安全クリティカルなMoE LLM(例:拒絶)の挙動は,一様分布ではなく,少数の専門家群に集中していることが判明した。
そこで我々は,Large Language Lobotomy (L$^3$)を提案する。Large Language Lobotomy(L$^3$)は,トレーニング不要でアーキテクチャに依存しない攻撃で,専門家のルーティングダイナミクスを活用することで安全性の整合性を損なう。
L$^3$は、拒絶と相関するルーティングパターンを学び、特定の専門家に安全行動の属性を与え、有害なアウトプットが生成されるまで、最も安全に関連する専門家を適応的に沈黙させる。
我々は,8つの最先端オープンソースMoE LLMに対してL$^3$を評価し,適応的専門家サイレンシングが平均攻撃成功率を7.3%から70.4%に引き上げ,86.3%まで向上し,事前トレーニングのないMoEジェイルブレイク法よりも優れていたことを示す。
さらに、ガードレールをバイパスするには、一般的に20%未満のレイヤーワイドの専門家をサイレンシングする必要がある。
これらの結果は、効率駆動型MoE設計とロバスト安全性アライメントの基本的な緊張関係を明らかにし、アーキテクチャとルーティングを意識した将来のMoE LLMにおいて、より堅牢な安全メカニズムの配布を動機付けている。
関連論文リスト
- GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs [24.327693899810615]
GateBreakerは、トレーニング不要で、軽量で、アーキテクチャに依存しない最初のアタックフレームワークです。
GateBreakerは、現代のMoE LLMの安全アライメントを推論時に妥協する。
本研究により,MoEの安全性はスパースルーティングによって調整された神経細胞の小さなサブセットに集中していることが判明した。
論文 参考訳(メタデータ) (2025-12-24T07:13:24Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers [12.47462301643593]
大規模言語モデル (LLM) とMixture-of-Experts (MoE) アーキテクチャは、専門家として知られる専門職に入力を動的にルーティングすることで、優れたパフォーマンスと効率を達成する。
我々は,タスク結合型動的トリガ最適化と感性誘導型Top-Sエキスパートトレース機構を統合した,新しいバックドアフレームワークであるBadSwitchを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:11:02Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。