論文の概要: RASA: Routing-Aware Safety Alignment for Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2602.04448v1
- Date: Wed, 04 Feb 2026 11:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.503516
- Title: RASA: Routing-Aware Safety Alignment for Mixture-of-Experts Models
- Title(参考訳): RASA:Mixture-of-Expertsモデルのためのルーティング対応安全アライメント
- Authors: Jiacheng Liang, Yuhui Wang, Tanqiu Jiang, Ting Wang,
- Abstract要約: ルーティング対応の専門家レベルのアライメントフレームワークであるRASAを提案する。
RASAは、ジェイルブレイクの成功によって不当にアクティベートされた専門家を特定し、固定されたルーティングの下でこれらの専門家だけを選択的に微調整する。
この結果から,グローバルなパラメータ更新よりも,目標とする専門家の修復により,ロバストなMoEの安全性が向上することが示唆された。
- 参考スコア(独自算出の注目度): 10.741523413040559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) language models introduce unique challenges for safety alignment due to their sparse routing mechanisms, which can enable degenerate optimization behaviors under standard full-parameter fine-tuning. In our preliminary experiments, we observe that naively applying full-parameter safety fine-tuning to MoE models can reduce attack success rates through routing or expert dominance effects, rather than by directly repairing Safety-Critical Experts. To address this challenge, we propose RASA, a routing-aware expert-level alignment framework that explicitly repairs Safety-Critical Experts while preventing routing-based bypasses. RASA identifies experts disproportionately activated by successful jailbreaks, selectively fine-tunes only these experts under fixed routing, and subsequently enforces routing consistency with safety-aligned contexts. Across two representative MoE architectures and a diverse set of jailbreak attacks, RASA achieves near-perfect robustness, strong cross-attack generalization, and substantially reduced over-refusal, while preserving general capabilities on benchmarks such as MMLU, GSM8K, and TruthfulQA. Our results suggest that robust MoE safety alignment benefits from targeted expert repair rather than global parameter updates, offering a practical and architecture-preserving alternative to prior approaches.
- Abstract(参考訳): Mixture-of-Experts (MoE)言語モデルは、そのスパースルーティング機構によって、標準のフルパラメータ細調整下での退化最適化動作を可能にする、安全アライメントのためのユニークな課題を導入している。
予備実験では, 安全クリティカルエキスパートを直接修復するのではなく, ルーティングや専門家支配効果による攻撃成功率の低減が期待できる。
この課題に対処するために、ルーティングベースのバイパスを防止しつつ、安全クリティカルエキスパートを明示的に修復するルーティング対応の専門家レベルのアライメントフレームワークであるRASAを提案する。
RASAは、ジェイルブレイクの成功によって不当にアクティベートされた専門家を特定し、固定されたルーティングの下でこれらの専門家のみを選択的に微調整し、その後、安全に整合したコンテキストでルーティングの一貫性を強制する。
2つの代表的なMoEアーキテクチャと多様なジェイルブレイク攻撃に対して、RASAはMMLU、GSM8K、TruthfulQAなどのベンチマークで一般的な機能を保ちながら、ほぼ完全な堅牢性、強力なクロスアタックの一般化、大幅なオーバーリフレクションを実現している。
この結果から,グローバルなパラメータ更新ではなく,目標とする専門家の修復により,ロバストなMoE安全アライメントが有効であることが示唆された。
関連論文リスト
- SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers [12.47462301643593]
大規模言語モデル (LLM) とMixture-of-Experts (MoE) アーキテクチャは、専門家として知られる専門職に入力を動的にルーティングすることで、優れたパフォーマンスと効率を達成する。
我々は,タスク結合型動的トリガ最適化と感性誘導型Top-Sエキスパートトレース機構を統合した,新しいバックドアフレームワークであるBadSwitchを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:11:02Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。