論文の概要: Understanding Safety-Sensitive Expert Behavior in Mixture-of-Experts LLMs
- arxiv url: http://arxiv.org/abs/2605.29708v1
- Date: Thu, 28 May 2026 10:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.170422
- Title: Understanding Safety-Sensitive Expert Behavior in Mixture-of-Experts LLMs
- Title(参考訳): 実験用LLMの安全性に敏感な専門家行動の理解
- Authors: Zhibo Zhang, Yuxi Li, Zhen Ouyang, Ling Shi, Kailong Wang,
- Abstract要約: 一般的な直観では、安全行動は、異なる拒絶指向の専門家に有害な要求をルーティングすることで制御される。
専門家の小さなサブセットにローカライズされた安全対策を調査するフレームワークである**RASET*を提示する。
結果は、専門家が認識するアライメントメカニズムの必要性を浮き彫りにした、明確なMoE安全性リスクを明らかにした。
- 参考スコア(独自算出の注目度): 21.519746366998646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) LLMs rely on sparse, router-driven expert activation, yet how safety alignment interacts with routed expert specialization remains underexplored. A common intuition is that safety behavior may be controlled by routing harmful requests to distinct refusal-oriented experts. In this work, we provide empirical evidence for a different picture: routing patterns in aligned MoE LLMs are largely topic-driven, while safety behavior can be altered with little change to the model's intrinsic routing path. Motivated by this observation, we present **RASET** (**R**outer-**A**gnostic **S**afety-critical **E**xpert **T**uning), a red-teaming framework that probes safety enforcement that is localized in a small subset of experts while preserving the model's intrinsic routing behavior. **RASET** identifies safety-critical experts via a contrastive routing-sensitivity criterion and applies parameter-efficient tuning only to the selected experts, minimizing semantic disruption relative to router-steering interventions. These results reveal a distinct MoE safety risk, highlighting the need for expert-aware alignment mechanisms.
- Abstract(参考訳): Mixture-of-Experts (MoE) LLMはスパースでルータ駆動のエキスパートアクティベーションに依存している。
一般的な直観では、安全行動は、異なる拒絶指向の専門家に有害な要求をルーティングすることで制御される。
本研究では,協調型MOE LLMにおけるルーティングパターンが主にトピック駆動であるのに対して,モデル固有のルーティングパスにほとんど変更を加えることなく,安全性の挙動を変更できることを示す。
この観察によって動機づけられた**RASET** (**R**outer-*A**gnostic **S**afety- critical **E**xpert **T*uningは、モデルの本質的なルーティング動作を保ちながら、専門家の小さなサブセットに局所化される安全強制を調査するレッドチームフレームワークである。
**RASET*は、コントラッシブなルーティング感度基準によって安全クリティカルな専門家を特定し、選択した専門家のみにパラメータ効率のチューニングを適用し、ルータ-ステアリングの介入に対するセマンティックリセプションを最小限にする。
これらの結果は、専門家が認識するアライメント機構の必要性を浮き彫りにした、明確なMoE安全性リスクを明らかにしている。
関連論文リスト
- RouteScan: A Non-Intrusive Approach to Auditing MoE LLMs Safety via Expert Routing Telemetry [24.677169755426906]
我々は、専門家のルーティングテレメトリを通して有害な行動を検出する非侵襲的な監査フレームワークであるRouteScanを提案する。
RouteScanは、未確認の有害ドメインで0.93以上、新しいジェイルブレイクラッパーで0.96以上、強力な一般化を実現している。
論文 参考訳(メタデータ) (2026-05-24T02:06:44Z) - RASA: Routing-Aware Safety Alignment for Mixture-of-Experts Models [10.741523413040559]
ルーティング対応の専門家レベルのアライメントフレームワークであるRASAを提案する。
RASAは、ジェイルブレイクの成功によって不当にアクティベートされた専門家を特定し、固定されたルーティングの下でこれらの専門家だけを選択的に微調整する。
この結果から,グローバルなパラメータ更新よりも,目標とする専門家の修復により,ロバストなMoEの安全性が向上することが示唆された。
論文 参考訳(メタデータ) (2026-02-04T11:19:15Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Steering MoE LLMs via Expert (De)Activation [118.23403783503026]
LLM(Large Language Models)におけるMixture-of-Experts (MoE)は、各トークンを専用のFeed-Forward Networks (FFN)のサブセットを介してルーティングする。
我々は,行動関連の専門家を検知し,制御することで,MoEモデルをステアリングするフレームワークであるSteerMoEを提案する。
論文 参考訳(メタデータ) (2025-09-11T17:55:09Z) - RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2230254959204]
我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-03T14:51:58Z) - SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification [27.13765502389987]
MoE固有の位置脆弱性の安全性リスクは、形式化され、体系的に分析される。
分析フレームワークであるSAFExは、安全クリティカルな専門家をしっかりと識別し、特徴付け、検証するために提示される。
専門家レベルの介入は因果関係を調査し、緩和をテストするために行われる。
論文 参考訳(メタデータ) (2025-06-20T15:09:10Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。