論文の概要: Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers
- arxiv url: http://arxiv.org/abs/2510.13462v1
- Date: Wed, 15 Oct 2025 12:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.658314
- Title: Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers
- Title(参考訳): 誰がトリガーを話すか? バックドア混合変圧器の動的エキスパートルーティング
- Authors: Xin Zhao, Xiaojun Chen, Bingshan Liu, Haoyu Gao, Zhendong Zhao, Yilong Chen,
- Abstract要約: 大規模言語モデル (LLM) とMixture-of-Experts (MoE) アーキテクチャは、専門家として知られる専門職に入力を動的にルーティングすることで、優れたパフォーマンスと効率を達成する。
我々は,タスク結合型動的トリガ最適化と感性誘導型Top-Sエキスパートトレース機構を統合した,新しいバックドアフレームワークであるBadSwitchを提案する。
- 参考スコア(独自算出の注目度): 12.47462301643593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with Mixture-of-Experts (MoE) architectures achieve impressive performance and efficiency by dynamically routing inputs to specialized subnetworks, known as experts. However, this sparse routing mechanism inherently exhibits task preferences due to expert specialization, introducing a new and underexplored vulnerability to backdoor attacks. In this work, we investigate the feasibility and effectiveness of injecting backdoors into MoE-based LLMs by exploiting their inherent expert routing preferences. We thus propose BadSwitch, a novel backdoor framework that integrates task-coupled dynamic trigger optimization with a sensitivity-guided Top-S expert tracing mechanism. Our approach jointly optimizes trigger embeddings during pretraining while identifying S most sensitive experts, subsequently constraining the Top-K gating mechanism to these targeted experts. Unlike traditional backdoor attacks that rely on superficial data poisoning or model editing, BadSwitch primarily embeds malicious triggers into expert routing paths with strong task affinity, enabling precise and stealthy model manipulation. Through comprehensive evaluations across three prominent MoE architectures (Switch Transformer, QwenMoE, and DeepSeekMoE), we demonstrate that BadSwitch can efficiently hijack pre-trained models with up to 100% success rate (ASR) while maintaining the highest clean accuracy (ACC) among all baselines. Furthermore, BadSwitch exhibits strong resilience against both text-level and model-level defense mechanisms, achieving 94.07% ASR and 87.18% ACC on the AGNews dataset. Our analysis of expert activation patterns reveals fundamental insights into MoE vulnerabilities. We anticipate this work will expose security risks in MoE systems and contribute to advancing AI safety.
- Abstract(参考訳): 大規模言語モデル (LLM) とMixture-of-Experts (MoE) アーキテクチャは、専門家として知られる特殊なサブネットワークに入力を動的にルーティングすることで、優れたパフォーマンスと効率を達成する。
しかし,このスパースルーティング機構は,バックドア攻撃に対する新たな,未調査の脆弱性を導入し,専門家の専門化によるタスクの選好を本質的に表している。
本研究では,MOE ベースの LLM にバックドアを注入する可能性と有効性について検討する。
そこで我々は,タスク結合型動的トリガ最適化と感性誘導型Top-Sエキスパートトレース機構を統合した,新しいバックドアフレームワークであるBadSwitchを提案する。
提案手法は,プレトレーニング中のトリガー埋め込みを最適化し,Sが最も敏感な専門家を識別し,Top-Kゲーティング機構をこれらの専門家に制約する。
表面的なデータ中毒やモデル編集に依存する従来のバックドア攻撃とは異なり、BadSwitchは悪質なトリガーを、強いタスク親和性を持つ専門家のルーティングパスに埋め込んで、正確でステルス的なモデル操作を可能にする。
我々は、Switch Transformer、QwenMoE、DeepSeekMoEの3つの主要なMoEアーキテクチャの総合的な評価を通じて、BadSwitchは、すべてのベースラインの中で最もクリーンな精度(ACC)を維持しつつ、最大100%の成功率(ASR)でトレーニング済みモデルを効率的にハイジャックできることを実証した。
さらに、BadSwitchはテキストレベルとモデルレベルの防御機構に対して強いレジリエンスを示し、AGNewsデータセット上で94.07%のASRと87.18%のACCを達成した。
専門家アクティベーションパターンの分析により,MoEの脆弱性に関する基本的な知見が明らかになった。
この作業は、MoEシステムのセキュリティリスクを露呈し、AIの安全性向上に寄与することを期待しています。
関連論文リスト
- Steering MoE LLMs via Expert (De)Activation [118.23403783503026]
LLM(Large Language Models)におけるMixture-of-Experts (MoE)は、各トークンを専用のFeed-Forward Networks (FFN)のサブセットを介してルーティングする。
我々は,行動関連の専門家を検知し,制御することで,MoEモデルをステアリングするフレームワークであるSteerMoEを提案する。
論文 参考訳(メタデータ) (2025-09-11T17:55:09Z) - Robust Experts: the Effect of Adversarial Training on CNNs with Sparse Mixture-of-Experts Layers [10.912224105652044]
敵の攻撃に対する畳み込みニューラルネットワーク(CNN)のロバスト化は依然として困難である。
頑健性を向上させるため, スパース・ミックス・オブ・エキスパート(MoE)層の利用について検討する。
より深いステージに1つのMoE層を挿入すると、ロバスト性が一貫した改善が得られます。
論文 参考訳(メタデータ) (2025-09-05T13:25:33Z) - MoEcho: Exploiting Side-Channel Attacks to Compromise User Privacy in Mixture-of-Experts LLMs [4.364203697065213]
MoEchoは分析ベースのアタックサーフェスで、MoEベースのシステムのユーザのプライバシを侵害する。
大規模言語モデル(LLM)と視覚言語モデル(VLM)において,MoEアーキテクチャに基づくユーザプライバシを効果的に侵害する4つの攻撃を提案する。
論文 参考訳(メタデータ) (2025-08-20T20:02:35Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts [12.755458703336153]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)のための強力なアーキテクチャとして登場した。
本稿は、攻撃者が休眠専門家に毒を盛るMOEベースのLDMに対する最初のバックドア攻撃について述べる。
また、モデルの予測を操作するために、休眠の専門家が支配的な専門家として機能することを示します。
論文 参考訳(メタデータ) (2025-04-24T16:42:38Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。