論文の概要: MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks
- arxiv url: http://arxiv.org/abs/2604.27818v1
- Date: Thu, 30 Apr 2026 12:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.095991
- Title: MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks
- Title(参考訳): MASCing: アクティベーション・ステアリング・マスクによるコンフィギュアブル・ミックス・オブ・エキスパートの振る舞い
- Authors: Jona te Lintelo, Lichao Wu, Marina Krček, Sengim Karayalçin, Stjepan Picek,
- Abstract要約: 我々は、様々な安全シナリオにおけるMoEの振る舞いを、再トレーニングなしで柔軟に再構成できるフレームワークMASCingを提案する。
MASCingはLSTMベースのサロゲートモデルを使用して、層間ルーティングの依存関係をキャプチャし、ルーティングログを下流の動作にマップする。
次に、ステアリング行列を最適化し、行動関連の専門家回路を特定し、ルーティングゲートにステアリングマスクを適用して専門家の選択をオーバーライドする。
- 参考スコア(独自算出の注目度): 12.70638634576904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures in Large Language Models (LLMs) have significantly reduced inference costs through sparse activation. However, this sparse activation paradigm also introduces new safety challenges. Since only a subset of experts is engaged for each input, model behavior becomes coupled to routing decisions, yielding a difficult-to-control mechanism that can vary across safety-relevant scenarios. At the same time, adapting model behavior through full fine-tuning or retraining is costly, especially when developers need to rapidly configure the same model for different safety objectives. We present MASCing (MoE Activation Steering Configuration), the first framework that enables flexible reconfiguration of MoE behavior across diverse safety scenarios without retraining. MASCing uses an LSTM-based surrogate model to capture cross-layer routing dependencies and map routing logits to downstream behaviors. It then optimizes a steering matrix to identify behavior-relevant expert circuits and, at inference time, applies steering masks to the routing gates to override expert selection. This enables targeted enhancement or suppression of specific behaviors while preserving general language utility. To demonstrate its reconfigurability, we apply MASCing to two different safety-related objectives and observe consistent gains with negligible overhead across seven open-source MoE models. For multi-turn jailbreak defense, it improves the average defense success rate from 52.5% to 83.9%, with gains of up to 89.2%. For adult-content generation, MASCing enables models to comply with such requests that would otherwise be refused, increasing the average generation success rate from 52.6% to 82.0%, with gains of up to 93.0%. These results establish MASCing as a practical, lightweight, and flexible framework for scenario-specific safety reconfiguration in MoE models.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるMixture-of-Experts (MoE)アーキテクチャは、スパースアクティベーションによって推論コストを大幅に削減した。
しかし、このスパースアクティベーションパラダイムは新たな安全課題ももたらしている。
入力毎に専門家のサブセットが関与しているため、モデルの振る舞いはルーティング決定と結合され、安全関連シナリオによって異なる、制御の難しいメカニズムが生まれる。
同時に、特に開発者が異なる安全性目標のために同じモデルを迅速に設定する必要がある場合、完全な微調整や再トレーニングによるモデル動作の適用にはコストがかかる。
我々は,MOE Activation Steering Configuration (MOE Activation Steering Configuration) を提案する。
MASCingはLSTMベースのサロゲートモデルを使用して、層間ルーティングの依存関係をキャプチャし、ルーティングログを下流の動作にマップする。
次に、ステアリング行列を最適化して行動関連の専門家回路を識別し、推論時にルーティングゲートにステアリングマスクを適用して専門家の選択をオーバーライドする。
これにより、汎用言語を保ちながら、特定の行動の強化や抑制を目標とすることが可能になる。
再構成性を示すために,MASCingを2つの異なる安全関連目標に適用し,7つのオープンソースMOEモデルに対して無視できないオーバーヘッドで一貫した利得を観測する。
マルチターンのジェイルブレイク防衛では、平均的な防衛成功率を52.5%から83.9%に改善し、89.2%まで上昇した。
成人世代では、MASCingはモデルが拒否されるような要求に従うことができ、平均的な世代成功率は52.6%から82.0%に増加し、最大93.0%まで上昇する。
これらの結果から,MOEモデルにおけるシナリオ固有の安全性再構成のための,実用的で軽量で柔軟なフレームワークとしてMASCingが確立された。
関連論文リスト
- Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use [6.622648583261088]
エージェント言語モデルは、単一のミスステップが不可逆的な害を引き起こす可能性のあるロングホライゾンアクションを計画、呼び出し、実行しなければなりません。
安全判断を明確化し,学習可能にすることで,エージェントを安全なマルチステップツール使用に整合させるフレームワークであるMOSAICを紹介する。
以上の結果から,MOSAICは有害行為を最大50%減らし,インジェクション攻撃で20%以上減らし,プライバシリークを減らし,良質なタスク性能を保ち,改善することを示した。
論文 参考訳(メタデータ) (2026-03-03T17:59:35Z) - Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing [14.891975420982504]
トレーニング不要でアーキテクチャに依存しない攻撃であるLarge Language Lobotomy (L$3$)を提案する。
L$3$は、拒絶と相関するルーティングパターンを学び、特定の専門家に安全行動の属性を与え、有害なアウトプットが生成されるまで、最も安全に関連する専門家を適応的に沈黙させる。
我々は8つの最先端オープンソースMoE LLMに対して3ドルの評価を行い、アダプティブエキスパートサイレンシングが平均攻撃成功率を7.3%から70.4%に引き上げ、86.3%まで向上し、事前トレーニングなしの成績を上回ったことを示す。
論文 参考訳(メタデータ) (2026-02-09T14:42:11Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - GSAE: Graph-Regularized Sparse Autoencoders for Robust LLM Safety Steering [5.124731939041066]
大規模言語モデル(LLM)は、敵のプロンプトやジェイルブレイク攻撃を通じて有害なコンテンツを生成するように操作できるため、重要な安全上の課題に直面している。
グラフ正規化スパースオートエンコーダ (GSAE) を導入し, ニューロン共活性化グラフ上にラプラシアンスムーズネスペナルティを持つSAEを拡張した。
GSAEは, 効果的な安全ステアリング, 特徴を重み付けした安全関連方向に組み立て, 2段階のゲーティング機構で制御できることを実証した。
論文 参考訳(メタデータ) (2025-12-07T04:46:30Z) - Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers [12.47462301643593]
大規模言語モデル (LLM) とMixture-of-Experts (MoE) アーキテクチャは、専門家として知られる専門職に入力を動的にルーティングすることで、優れたパフォーマンスと効率を達成する。
我々は,タスク結合型動的トリガ最適化と感性誘導型Top-Sエキスパートトレース機構を統合した,新しいバックドアフレームワークであるBadSwitchを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:11:02Z) - Steering MoE LLMs via Expert (De)Activation [118.23403783503026]
LLM(Large Language Models)におけるMixture-of-Experts (MoE)は、各トークンを専用のFeed-Forward Networks (FFN)のサブセットを介してルーティングする。
我々は,行動関連の専門家を検知し,制御することで,MoEモデルをステアリングするフレームワークであるSteerMoEを提案する。
論文 参考訳(メタデータ) (2025-09-11T17:55:09Z) - Moshi Moshi? A Model Selection Hijacking Adversarial Attack [16.020656810797256]
本報告では,モデル選択を対象とする最初の敵攻撃であるMOSHIについて述べる。
我々の攻撃は、平均88.30%の一般化能力低下、83.33%の遅延増加、最大105.85%のエネルギー消費の増加を引き起こす。
これらの結果は、モデル選択プロセスにおける重大な脆弱性と、実際のアプリケーションに対する潜在的な影響を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-20T14:16:15Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。