論文の概要: Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment
- arxiv url: http://arxiv.org/abs/2509.22745v2
- Date: Thu, 09 Oct 2025 13:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.713464
- Title: Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment
- Title(参考訳): 安全ルーティングアライメントによる有害微調整に対するMoE LLMの防御
- Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son,
- Abstract要約: 大規模言語モデル(LLM)に適した安全な微調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることによって、ルーティングドリフトを直接緩和する。
実験の結果、SafeMoEはHFT攻撃を効果的に軽減し、OLMoEの有害度スコアを62.0から5.0に下げた。
- 参考スコア(独自算出の注目度): 15.402485173557352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have increasingly adopted the Mixture-of-Experts (MoE) architecture for efficiency. MoE-based LLMs heavily depend on a superficial safety mechanism in which harmful inputs are routed safety-critical experts. However, our analysis reveals that routing decisions for harmful inputs drift significantly after fine-tuning, exposing a critical vulnerability to harmful fine-tuning (HFT) attacks. Existing defenses, primarily designed for monolithic LLMs, are less effective for MoE LLMs as they fail to prevent drift in harmful input routing. To address this limitation, we propose SafeMoE, a safe fine-tuning method tailored to MoE LLMs. SafeMoE directly mitigates routing drift by penalizing the gap between the routing weights of a fine-tuned model and those of the initial safety-aligned model, thereby preserving the safety-aligned routing of harmful inputs to safety-critical experts. Experiments on open-source MoE LLMs ranging from 7B to 141B parameters demonstrate that SafeMoE effectively mitigates HFT attacks, reducing the harmfulness score of OLMoE from 62.0 to 5.0, for example, while maintaining task utility within 1% degradation and incurring only 2% overhead. It significantly outperforms state-of-the-art defense methods for safeguarding LLM fine-tuning and remains effective in recent large-scale MoE LLMs such as gpt-oss and Llama 4. Our implementation is available at https://anonymous.4open.science/r/SafeMoE.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) では,Mixture-of-Experts (MoE) アーキテクチャを効率よく採用している。
MoEベースのLLMは、有害な入力が安全クリティカルな専門家にルーティングされる表面安全機構に大きく依存している。
しかし,本分析により,有害入力の経路決定は微調整後に著しく低下し,有害な微調整(HFT)攻撃に対する致命的な脆弱性が明らかとなった。
既存の防御は、主にモノリシックなLLM用に設計されており、有害な入力ルーティングのドリフトを防げないため、MoE LLMには効果が低い。
この制限に対処するため,安全な微細調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることにより、ルーティングドリフトを軽減し、有害な入力の安全なルーティングを安全クリティカルな専門家に保存する。
7Bから141Bのパラメータを含むオープンソースのMoE LLMの実験では、SafeMoEはHFT攻撃を効果的に軽減し、例えばOLMoEの有害度スコアを62.0から5.0に低減し、タスクユーティリティを1%の劣化率で維持し、オーバーヘッドをわずか2%に抑える。
LLMの微細加工を安全にするための最先端の防御方法よりも優れており、gpt-ossやLlama 4といった最近の大規模MOE LLMでも有効である。
実装はhttps://anonymous.4open.science/r/SafeMoEで公開しています。
関連論文リスト
- Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing [14.891975420982504]
トレーニング不要でアーキテクチャに依存しない攻撃であるLarge Language Lobotomy (L$3$)を提案する。
L$3$は、拒絶と相関するルーティングパターンを学び、特定の専門家に安全行動の属性を与え、有害なアウトプットが生成されるまで、最も安全に関連する専門家を適応的に沈黙させる。
我々は8つの最先端オープンソースMoE LLMに対して3ドルの評価を行い、アダプティブエキスパートサイレンシングが平均攻撃成功率を7.3%から70.4%に引き上げ、86.3%まで向上し、事前トレーニングなしの成績を上回ったことを示す。
論文 参考訳(メタデータ) (2026-02-09T14:42:11Z) - Sparse Models, Sparse Safety: Unsafe Routes in Mixture-of-Experts LLMs [20.93386462211096]
コンバレーション・オブ・エキスパート(MoE)アーキテクチャは、大規模言語モデルの計算コストを大幅に削減する。
しかし、以前の作業は主に実用性と効率に重点を置いており、このスパースアーキテクチャに関連する安全性のリスクは過小評価されている。
安全でないルートを発見することで,MoE LLMの安全性はアーキテクチャと同じくらい疎いことを示す。
論文 参考訳(メタデータ) (2026-02-09T13:12:54Z) - GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs [24.327693899810615]
GateBreakerは、トレーニング不要で、軽量で、アーキテクチャに依存しない最初のアタックフレームワークです。
GateBreakerは、現代のMoE LLMの安全アライメントを推論時に妥協する。
本研究により,MoEの安全性はスパースルーティングによって調整された神経細胞の小さなサブセットに集中していることが判明した。
論文 参考訳(メタデータ) (2025-12-24T07:13:24Z) - Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。