論文の概要: SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification
- arxiv url: http://arxiv.org/abs/2506.17368v1
- Date: Fri, 20 Jun 2025 15:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.386682
- Title: SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification
- Title(参考訳): SAFEx:安定安全クリティカルエキスパート同定によるMoE系LDMの脆弱性解析
- Authors: Zhenglin Lai, Mengyao Liao, Dong Xu, Zebin Zhao, Zhihang Yuan, Chao Fan, Jianqiang Li, Bingzhe Wu,
- Abstract要約: 我々は,MoEモデルの位置的脆弱性を形式化し,体系的に研究する。
SAFExは、安全クリティカルな専門家をしっかりと識別し、特徴付けし、検証する分析フレームワークである。
- 参考スコア(独自算出の注目度): 26.937824679384097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models based on Mixture-of-Experts have achieved substantial gains in efficiency and scalability, yet their architectural uniqueness introduces underexplored safety alignment challenges. Existing safety alignment strategies, predominantly designed for dense models, are ill-suited to address MoE-specific vulnerabilities. In this work, we formalize and systematically study MoE model's positional vulnerability - the phenomenon where safety-aligned behaviors rely on specific expert modules, revealing critical risks inherent to MoE architectures. To this end, we present SAFEx, an analytical framework that robustly identifies, characterizes, and validates the safety-critical experts using a novel Stability-based Expert Selection (SES) algorithm. Notably, our approach enables the explicit decomposition of safety-critical experts into distinct functional groups, including those responsible for harmful content detection and those controlling safe response generation. Extensive experiments on mainstream MoE models, such as the recently released Qwen3-MoE, demonstrated that their intrinsic safety mechanisms heavily rely on a small subset of positional experts. Disabling these experts significantly compromised the models' ability to refuse harmful requests. For Qwen3-MoE with 6144 experts (in the FNN layer), we find that disabling as few as 12 identified safety-critical experts can cause the refusal rate to drop by 22%, demonstrating the disproportionate impact of a small set of experts on overall model safety.
- Abstract(参考訳): Mixture-of-Expertsに基づく大規模言語モデルは、効率性とスケーラビリティにおいて大幅に向上したが、そのアーキテクチャ上の特異性は、未調査の安全性確保の課題をもたらす。
既存の安全アライメント戦略は、主に密度の高いモデルのために設計されており、MoE固有の脆弱性に対処するには不適である。
本研究では,MoEモデルの位置的脆弱性 - 安全に整合した動作が特定の専門家モジュールに依存する現象 - を形式化し,体系的に研究し,MoEアーキテクチャに固有の重大なリスクを明らかにする。
この目的のために, 安定度に基づくエキスパート選択(SES)アルゴリズムを用いて, 安全クリティカルな専門家を頑健に識別し, 特徴付けし, 検証する分析フレームワークであるSAFExを提案する。
特に, 本手法は, 有害なコンテンツ検出に責任があるグループや, 安全な応答生成を制御しているグループなど, 安全クリティカルな専門家を明確な機能グループに分解することを可能にする。
最近リリースされたQwen3-MoEのようなメインストリームのMoEモデルに対する大規模な実験は、本質的な安全性メカニズムが少数の位置の専門家に大きく依存していることを示した。
これらの専門家の解散は、有害な要求を拒否するモデルの能力を著しく損なうことになった。
6144人の専門家(FNN層)を持つQwen3-MoEでは、特定された安全クリティカルな専門家が12人しかいないことが、拒絶率を22%低下させ、モデル全体の安全性に少数の専門家が不均衡に影響を及ぼすことを示した。
関連論文リスト
- Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making [31.555271917529872]
本研究では,大規模言語モデル(LLM)の身体的安全性を体系的に評価するフレームワークであるSAFELを紹介する。
EMBODYGUARD は PDDL をベースとしたベンチマークであり,942 の LLM 生成シナリオで過度に悪意のある命令と文脈的に有害な命令の両方をカバーしている。
本稿は,現在のLLMにおける限界点を強調し,よりターゲットを絞った,よりモジュール化された,安全な具体的推論の基盤を提供する。
論文 参考訳(メタデータ) (2025-05-26T13:01:14Z) - Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - On the Role of Attention Heads in Large Language Model Safety [64.51534137177491]
大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。
モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:08:06Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。