論文の概要: BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts
- arxiv url: http://arxiv.org/abs/2504.18598v2
- Date: Tue, 29 Apr 2025 02:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.906494
- Title: BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts
- Title(参考訳): BadMoE: ルートトリガーの最適化と休業専門家への感染を通じて, 試験用LLMのバックドア化
- Authors: Qingyue Wang, Qi Pang, Xixun Lin, Shuai Wang, Daoyuan Wu,
- Abstract要約: Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)のための強力なアーキテクチャとして登場した。
本稿は、攻撃者が休眠専門家に毒を盛るMOEベースのLDMに対する最初のバックドア攻撃について述べる。
また、モデルの予測を操作するために、休眠の専門家が支配的な専門家として機能することを示します。
- 参考スコア(独自算出の注目度): 12.755458703336153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) have emerged as a powerful architecture for large language models (LLMs), enabling efficient scaling of model capacity while maintaining manageable computational costs. The key advantage lies in their ability to route different tokens to different ``expert'' networks within the model, enabling specialization and efficient handling of diverse input. However, the vulnerabilities of MoE-based LLMs still have barely been studied, and the potential for backdoor attacks in this context remains largely unexplored. This paper presents the first backdoor attack against MoE-based LLMs where the attackers poison ``dormant experts'' (i.e., underutilized experts) and activate them by optimizing routing triggers, thereby gaining control over the model's output. We first rigorously prove the existence of a few ``dominating experts'' in MoE models, whose outputs can determine the overall MoE's output. We also show that dormant experts can serve as dominating experts to manipulate model predictions. Accordingly, our attack, namely BadMoE, exploits the unique architecture of MoE models by 1) identifying dormant experts unrelated to the target task, 2) constructing a routing-aware loss to optimize the activation triggers of these experts, and 3) promoting dormant experts to dominating roles via poisoned training data. Extensive experiments show that BadMoE successfully enforces malicious prediction on attackers' target tasks while preserving overall model utility, making it a more potent and stealthy attack than existing methods.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)の強力なアーキテクチャとして登場し、管理可能な計算コストを維持しながら、モデルキャパシティの効率的なスケーリングを可能にしている。
重要な利点は、異なるトークンをモデル内の異なる ``expert'' ネットワークにルーティングできることであり、多様な入力の特殊化と効率的な処理を可能にする。
しかし、MoEベースのLSMの脆弱性はまだ研究されておらず、この文脈でのバックドア攻撃の可能性はほとんど解明されていない。
本稿では,攻撃者が<dormant experts'(未使用の専門家)を毒殺し,ルーティングトリガを最適化し,モデル出力の制御を行う,MoEベースのLDMに対する最初のバックドア攻撃について述べる。
まず、出力がMoEのアウトプット全体を決定することができるMOEモデルに「支配する専門家」が存在することを厳格に証明する。
また、モデルの予測を操作するために、休眠の専門家が支配的な専門家として機能することを示します。
したがって、我々の攻撃、すなわちBadMoEは、MoEモデルのユニークなアーキテクチャを悪用する。
1) 目標業務に関係のない休息専門家を特定すること。
2)これらの専門家のアクティベーショントリガーを最適化するために、ルーティング対応の損失を構築する。
3) 有毒な訓練データにより, 休眠専門家が役割を担うことを奨励する。
大規模な実験により、BadMoEは攻撃者のターゲットタスクに対して悪意のある予測を実行し、全体のモデルユーティリティを保ち、既存の方法よりも強力でステルス的な攻撃を可能にした。
関連論文リスト
- Autonomy-of-Experts Models [34.82103329222486]
我々は,専門家が自己選択して入力を処理する,新しいMoEパラダイムを提案する。
AoEは、専門家がトークンを効果的に処理する能力を知っているという洞察に基づいている。
トップレベルの専門家だけがフォワードパスを進み、他の専門家は中止します。
論文 参考訳(メタデータ) (2025-01-22T18:37:08Z) - Towards Adversarial Robustness of Model-Level Mixture-of-Experts Architectures for Semantic Segmentation [11.311414617703308]
都市交通シーンと高速道路交通シーンのセマンティックセグメンテーションにおけるMoEsの脆弱性を評価する。
多くの場合、MoEsは、インスタンスごとの攻撃や汎用的なホワイトボックス攻撃に対してより堅牢であり、転送攻撃に耐えられることを示す。
論文 参考訳(メタデータ) (2024-12-16T09:49:59Z) - UOE: Unlearning One Expert Is Enough For Mixture-of-experts LLMS [35.237427998489785]
我々は,Mixture-of-Experts (MoE) LLMのための新しいシングルエキスパート・アンラーニングフレームワークUOEを提案する。
専門家の帰属を通じて、未学習は特定の知識の最も活発な専門家に集中する。
UOEは、様々なベンチマークでMoE LLMにおいて、品質を最大5%、実用性を35%向上させる。
論文 参考訳(メタデータ) (2024-11-27T22:46:08Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。
この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。
バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文 参考訳(メタデータ) (2023-03-01T07:54:54Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。