論文の概要: Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment
- arxiv url: http://arxiv.org/abs/2509.22745v1
- Date: Fri, 26 Sep 2025 04:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.845237
- Title: Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment
- Title(参考訳): 安全ルーティングアライメントによる有害微調整に対するMoE LLMの防御
- Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son,
- Abstract要約: 大規模言語モデル(LLM)に適した安全な微調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることによって、ルーティングドリフトを直接緩和する。
実験の結果、SafeMoEはHFT攻撃を効果的に軽減し、OLMoEの有害度スコアを62.0から5.0に下げた。
- 参考スコア(独自算出の注目度): 15.402485173557352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have increasingly adopted the Mixture-of-Experts (MoE) architecture for efficiency. MoE-based LLMs heavily depend on a superficial safety mechanism in which harmful inputs are routed safety-critical experts. However, our analysis reveals that routing decisions for harmful inputs drift significantly after fine-tuning, exposing a critical vulnerability to harmful fine-tuning (HFT) attacks. Existing defenses, primarily designed for monolithic LLMs, are less effective for MoE LLMs as they fail to prevent drift in harmful input routing. To address this limitation, we propose SafeMoE, a safe fine-tuning method tailored to MoE LLMs. SafeMoE directly mitigates routing drift by penalizing the gap between the routing weights of a fine-tuned model and those of the initial safety-aligned model, thereby preserving the safety-aligned routing of harmful inputs to safety-critical experts. Experiments on open-source MoE LLMs ranging from 7B to 141B parameters demonstrate that SafeMoE effectively mitigates HFT attacks, reducing the harmfulness score of OLMoE from 62.0 to 5.0, for example, while maintaining task utility within 1% degradation and incurring only 2% overhead. It significantly outperforms state-of-the-art defense methods for safeguarding LLM fine-tuning and remains effective in recent large-scale MoE LLMs such as gpt-oss and Llama 4. Our implementation is available at https://anonymous.4open.science/r/SafeMoE.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) では,Mixture-of-Experts (MoE) アーキテクチャを効率よく採用している。
MoEベースのLLMは、有害な入力が安全クリティカルな専門家にルーティングされる表面安全機構に大きく依存している。
しかし,本分析により,有害入力の経路決定は微調整後に著しく低下し,有害な微調整(HFT)攻撃に対する致命的な脆弱性が明らかとなった。
既存の防御は、主にモノリシックなLLM用に設計されており、有害な入力ルーティングのドリフトを防げないため、MoE LLMには効果が低い。
この制限に対処するため,安全な微細調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることにより、ルーティングドリフトを軽減し、有害な入力の安全なルーティングを安全クリティカルな専門家に保存する。
7Bから141Bのパラメータを含むオープンソースのMoE LLMの実験では、SafeMoEはHFT攻撃を効果的に軽減し、例えばOLMoEの有害度スコアを62.0から5.0に低減し、タスクユーティリティを1%の劣化率で維持し、オーバーヘッドをわずか2%に抑える。
LLMの微細加工を安全にするための最先端の防御方法よりも優れており、gpt-ossやLlama 4といった最近の大規模MOE LLMでも有効である。
実装はhttps://anonymous.4open.science/r/SafeMoEで公開しています。
関連論文リスト
- LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。