論文の概要: Sparse Models, Sparse Safety: Unsafe Routes in Mixture-of-Experts LLMs
- arxiv url: http://arxiv.org/abs/2602.08621v1
- Date: Mon, 09 Feb 2026 13:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.242606
- Title: Sparse Models, Sparse Safety: Unsafe Routes in Mixture-of-Experts LLMs
- Title(参考訳): スパースモデルとスパースセーフ:試験用LLMにおける安全でないルート
- Authors: Yukun Jiang, Hai Huang, Mingjie Li, Yage Zhang, Michael Backes, Yang Zhang,
- Abstract要約: コンバレーション・オブ・エキスパート(MoE)アーキテクチャは、大規模言語モデルの計算コストを大幅に削減する。
しかし、以前の作業は主に実用性と効率に重点を置いており、このスパースアーキテクチャに関連する安全性のリスクは過小評価されている。
安全でないルートを発見することで,MoE LLMの安全性はアーキテクチャと同じくらい疎いことを示す。
- 参考スコア(独自算出の注目度): 20.93386462211096
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: By introducing routers to selectively activate experts in Transformer layers, the mixture-of-experts (MoE) architecture significantly reduces computational costs in large language models (LLMs) while maintaining competitive performance, especially for models with massive parameters. However, prior work has largely focused on utility and efficiency, leaving the safety risks associated with this sparse architecture underexplored. In this work, we show that the safety of MoE LLMs is as sparse as their architecture by discovering unsafe routes: routing configurations that, once activated, convert safe outputs into harmful ones. Specifically, we first introduce the Router Safety importance score (RoSais) to quantify the safety criticality of each layer's router. Manipulation of only the high-RoSais router(s) can flip the default route into an unsafe one. For instance, on JailbreakBench, masking 5 routers in DeepSeek-V2-Lite increases attack success rate (ASR) by over 4$\times$ to 0.79, highlighting an inherent risk that router manipulation may naturally occur in MoE LLMs. We further propose a Fine-grained token-layer-wise Stochastic Optimization framework to discover more concrete Unsafe Routes (F-SOUR), which explicitly considers the sequentiality and dynamics of input tokens. Across four representative MoE LLM families, F-SOUR achieves an average ASR of 0.90 and 0.98 on JailbreakBench and AdvBench, respectively. Finally, we outline defensive perspectives, including safety-aware route disabling and router training, as promising directions to safeguard MoE LLMs. We hope our work can inform future red-teaming and safeguarding of MoE LLMs. Our code is provided in https://github.com/TrustAIRLab/UnsafeMoE.
- Abstract(参考訳): トランスフォーマー層のエキスパートを選択的に活性化するためにルータを導入することで、Mix-of-experts (MoE)アーキテクチャは大きな言語モデル(LLM)の計算コストを大幅に削減し、特に巨大なパラメータを持つモデルでは競争性能を維持している。
しかし、以前の作業は主に実用性と効率に重点を置いており、このスパースアーキテクチャに関連する安全性のリスクは過小評価されている。
本研究では,MoE LLMの安全性が,安全でない経路を発見することで,そのアーキテクチャと同等に疎結合であることを示す。
具体的には、まず、各層のルータの安全性臨界度を定量化するために、ルータ安全性重要度スコア(RoSais)を導入する。
高RoSaisルータのみを操作すると、デフォルトのルートを安全でないルートに切り替えることができる。
例えば、JailbreakBenchでは、DeepSeek-V2-Liteの5つのルータをマスクすると、攻撃成功率(ASR)が4$\times$から0.79に上昇する。
さらに,入力トークンの逐次性や動的性を明確に考慮した,より具体的なアンセーフルート(F-SOUR)を発見するための,きめ細かいトークン層ワイド確率最適化フレームワークを提案する。
4つの代表的なMoE LLMファミリーの中で、F-SOURは、それぞれJailbreakBenchとAdvBenchで平均0.90と0.98のASRを達成している。
最後に、安全に配慮したルートの無効化やルータ訓練など、防衛的視点をMoE LLMの安全を守るための有望な方向として概説する。
当社の作業が今後,MoE LLMのレッドチーム化と保護を通知できることを願っています。
私たちのコードはhttps://github.com/TrustAIRLab/UnsafeMoEで提供されます。
関連論文リスト
- RerouteGuard: Understanding and Mitigating Adversarial Risks for LLM Routing [20.559596977062146]
LLMルータはLLMリルーティングの形で敵攻撃に対して脆弱である。
LLMリルーチンのためのフレキシブルでスケーラブルなガードレールフレームワークであるRerouteGuardを紹介します。
RerouteGuardは、最先端のリルーチン攻撃に対する検出精度を99%以上達成している。
論文 参考訳(メタデータ) (2026-01-29T08:17:08Z) - Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment [15.402485173557352]
大規模言語モデル(LLM)に適した安全な微調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることによって、ルーティングドリフトを直接緩和する。
実験の結果、SafeMoEはHFT攻撃を効果的に軽減し、OLMoEの有害度スコアを62.0から5.0に下げた。
論文 参考訳(メタデータ) (2025-09-26T04:10:32Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Life-Cycle Routing Vulnerabilities of LLM Router [14.967638451190403]
大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めているが、その性能と計算コストは著しく異なる。
LLMルータは、これらのトレードオフの動的バランスにおいて重要な役割を果たす。
LLMルータのライフサイクルルーティング脆弱性に関する包括的調査を行う。
論文 参考訳(メタデータ) (2025-03-09T06:00:35Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。