論文の概要: Safety-Oriented Routing Analysis of Mixtral MoE Under Benign and Harmful Prompts
- arxiv url: http://arxiv.org/abs/2605.24270v1
- Date: Fri, 22 May 2026 22:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.837962
- Title: Safety-Oriented Routing Analysis of Mixtral MoE Under Benign and Harmful Prompts
- Title(参考訳): 良性および有害なプロンプト下での混合MoEの安全指向性ルーティング解析
- Authors: Md Nurul Absar Siddiky,
- Abstract要約: 2つの相補的信号を用いた良性および有害なプロンプト下でのMixtral 8x7B-Instructの経路挙動について検討した。
我々は、専門家レベルのルーティングの振る舞いを分析し、専門家による抑圧の介入を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse mixture-of-experts (MoE) language models activate only a small subset of parameters for each token, making router behavior a central part of model computation. This paper studies routing behavior of Mixtral 8x7B-Instruct under benign and harmful prompts using two complementary signals: activation-based routing scores derived from expert selection frequencies and gradient-based scores derived from router-gate sensitivities. We analyze expert- and layer-level routing behavior and conduct expert-suppression interventions. The results show that activation-based expert usage is broad and long-tailed, whereas gradient-based importance is concentrated. At expert level, benign and harmful prompt groups remain close under both signals with modest separation. At layer level, activation-based routing is most selective around layers 8-15, while gradient-based importance is concentrated in final layers. Expert classification shows most experts are shared across benign and harmful prompts, though a limited subset shows clear group preference. Top-ranked expert sets show stronger benign-malicious overlap under gradient scores than activation scores, suggesting concentration on a common late-layer expert set. In intervention experiments, suppressing top five benign-dominant experts from activation scores reduces restricted responses from 24 to 14 over 100 prompts, while suppressing gradient-derived experts reduces them from 34 to 22 with fewer unintended reversals. Overall, safety-relevant routing in Mixtral is subtle, depth-dependent, and distributed rather than dominated by a fixed set of experts.
- Abstract(参考訳): Sparse Mixed-of-Experts (MoE)言語モデルは各トークンのパラメータの小さなサブセットのみを活性化し、ルータの挙動をモデル計算の中心となる。
本稿では,2つの相補的信号(アクティベーションベースのルーティングスコア,ルータゲート感度から得られる勾配ベースのルーティングスコア)を用いて,良性かつ有害なプロンプト下でのMixtral 8x7B-Instructのルーティング挙動について検討する。
我々は、専門家レベルのルーティングの振る舞いを分析し、専門家による抑圧の介入を行う。
その結果,アクティベーションに基づく専門家の利用は広範かつ長期的であり,勾配に基づく重要度は集中的であることがわかった。
専門家レベルでは、良心と有害なプロンプトグループは、緩やかな分離を伴う両方の信号の下に留まっている。
層レベルでは、アクティベーションベースのルーティングが最も選択的であり、グラデーションベースのルーティングは最終層に集中している。
専門家の分類は、ほとんどの専門家が良心的かつ有害なプロンプトで共有されていることを示している。
上位のエキスパートセットは、アクティベーションスコアよりも勾配スコア下でのベニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグナグニグナグニグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグニグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナ
介入実験では、上位5人の良心的専門家をアクティベーションスコアから抑制することで、制限された応答を24から14に減らし、勾配から派生した専門家を減らし、意図しない逆転を減らして34から22に減らした。
全体として、Mixtralの安全性関連ルーティングは微妙で、深さに依存しており、固定された専門家のセットに支配されるのではなく、分散されている。
関連論文リスト
- Hierarchical Mixture-of-Experts with Two-Stage Optimization [84.70724165894501]
ルーティング制御を2つの結合レベルに分解するグループ化されたMoEフレームワークであるHi-MoEを提案する。
我々は,最近のスパースルーティングやグループ化されたMoEベースラインに対する一貫した改善をNLPおよびビジョンベンチマークで観察する。
58Bトークンの大規模事前トレーニングでは、Hi-MoE-7Bは5.6%のパープレキシティ低減と、OLMoE-7Bよりも40%のエキスパートバランスの改善を実現している。
論文 参考訳(メタデータ) (2026-05-08T09:21:46Z) - Preserving Long-Tailed Expert Information in Mixture-of-Experts Tuning [4.874690972824275]
バイアス駆動型スペーサー化と常にアクティブなゲート型凝縮器の専門家を組み合わせた補助損失のないMoE SFTフレームワークを提案する。
提案手法はDenseMixerやESFTといった最先端のSFTベースラインよりも優れており,数学的推論とCommonsenseQAベンチマークの両方で平均2.5%以上向上している。
論文 参考訳(メタデータ) (2026-04-24T21:48:20Z) - Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations [47.02065120237642]
本稿では,専門家の覚醒を目的としたトレーニングフリー推論フレームワークCoRを提案する。
CoRは、計算資源を動的にシフトさせるために、レイヤーワイド摂動解析とCEI(Counterfactual Expert Impact)メトリクスを統合する。
TruthfulQA、FACTOR、TriviaQAの実験では、予測予算を増やさずに、CoRが現実の精度を平均3.1%向上することを示した。
論文 参考訳(メタデータ) (2026-04-15T06:21:47Z) - MoE Pathfinder: Trajectory-driven Expert Pruning [19.790092938955336]
本稿では, 各層にまたがるアクティベート専門家の軌道に基づくプルーニング手法を提案する。
提案手法は,既存のほとんどの手法と比較して,ほぼすべてのタスクにおいて優れたプルーニング性能を実現する。
論文 参考訳(メタデータ) (2025-12-20T17:05:08Z) - Artificial-Intelligence Grading Assistance for Handwritten Components of a Calculus Exam [41.99844472131922]
大規模な1年間の試験では、生徒の手書き作業は、教師助手(TA)が使用するのと同じルーリックに対して、GPT-5で評価された。
我々は,AIスコアとモデル予測スコアとの偏差に基づいて,部分クレディットしきい値と項目応答理論(2PL)リスク尺度を併用したループ型フィルタを校正した。
フィルタされていないAI-TA契約は適度で、低レベルのフィードバックには適していたが、高レベルの使用には適していなかった。
論文 参考訳(メタデータ) (2025-10-04T15:07:06Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time [1.1655046053160683]
本稿では,Large Language Models(LLMs)のMixture-of-Expertsアーキテクチャを拡張する手法を提案する。
MoTEは、推論時間中のLLMにおける有意義で集中的な振る舞い変化を可能にする。
論文 参考訳(メタデータ) (2025-02-16T12:24:39Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。