論文の概要: CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing
- arxiv url: http://arxiv.org/abs/2511.01197v2
- Date: Tue, 04 Nov 2025 03:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.108135
- Title: CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing
- Title(参考訳): CryptoMoE: バランスのとれたエキスパートルーティングによるエキスパート推論のプライバシ保護とスケーラブルな混合
- Authors: Yifan Zhou, Tianshi Xu, Jue Hong, Ye Wu, Meng Li,
- Abstract要約: 提案するCryptoMoEは,MoEベースのモデルに対して,プライベートかつ効率的かつ正確な推論を可能にする最初のフレームワークである。
CryptoMoEは、専門家のルーティング情報を保護するために専門家の負荷のバランスをとり、専門家のディスパッチと組み合わせをセキュアにするための新しいプロトコルを提案する。
- 参考スコア(独自算出の注目度): 11.584369733386536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Private large language model (LLM) inference based on cryptographic primitives offers a promising path towards privacy-preserving deep learning. However, existing frameworks only support dense LLMs like LLaMA-1 and struggle to scale to mixture-of-experts (MoE) architectures. The key challenge comes from securely evaluating the dynamic routing mechanism in MoE layers, which may reveal sensitive input information if not fully protected. In this paper, we propose CryptoMoE, the first framework that enables private, efficient, and accurate inference for MoE-based models. CryptoMoE balances expert loads to protect expert routing information and proposes novel protocols for secure expert dispatch and combine. CryptoMoE also develops a confidence-aware token selection strategy and a batch matrix multiplication protocol to improve accuracy and efficiency further. Extensive experiments on DeepSeekMoE-16.4B, OLMoE-6.9B, and QWenMoE-14.3B show that CryptoMoE achieves $2.8\sim3.5\times$ end-to-end latency reduction and $2.9\sim4.3\times$ communication reduction over a dense baseline with minimum accuracy loss. We also adapt CipherPrune (ICLR'25) for MoE inference and demonstrate CryptoMoE can reduce the communication by up to $4.3 \times$. Code is available at: https://github.com/PKU-SEC-Lab/CryptoMoE.
- Abstract(参考訳): 暗号プリミティブに基づくプライベートな大規模言語モデル(LLM)推論は、プライバシー保護の深層学習への有望な道を提供する。
しかし、既存のフレームワークはLLaMA-1のような高密度なLLMのみをサポートし、Mix-of-experts (MoE)アーキテクチャにスケールするのに苦労している。
鍵となる課題は、MoE層の動的ルーティングメカニズムを安全に評価することにある。
本稿では,MoEモデルに対するプライベート,効率的,高精度な推論を可能にする最初のフレームワークであるCryptoMoEを提案する。
CryptoMoEは、専門家のルーティング情報を保護するために専門家の負荷のバランスをとり、専門家のディスパッチと組み合わせをセキュアにするための新しいプロトコルを提案する。
CryptoMoEはまた、信頼性を意識したトークン選択戦略とバッチ行列乗算プロトコルを開発し、精度と効率をさらに向上する。
DeepSeekMoE-16.4B、OLMoE-6.9B、QWenMoE-14.3Bの大規模な実験は、CryptoMoEが2.8\sim3.5\times$エンドツーエンドのレイテンシ削減と2.9\sim4.3\times$通信の低減を最小の精度で達成していることを示している。
また、MoE推論にCipherPrune (ICLR'25) を適用することで、CryptoMoEが最大4.3 \times$の通信を削減できることを示す。
コードはhttps://github.com/PKU-SEC-Lab/CryptoMoE.comで入手できる。
関連論文リスト
- DictPFL: Efficient and Private Federated Learning on Encrypted Gradients [46.7448838842482]
最小限のオーバーヘッドで完全な勾配保護を実現するフレームワークであるDictPFLを提案する。
送信されていないパラメータをローカルに保ちながら、送信されたすべての勾配を暗号化し、重い計算をすることなくプライバシを保存する。
実験によると、DictPFLは通信コストを402-748$times$で削減し、完全に暗号化されたFLと比較して28-65$times$でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-10-24T01:58:42Z) - SmartLLMSentry: A Comprehensive LLM Based Smart Contract Vulnerability Detection Framework [0.0]
本稿では,大規模言語モデル(LLM)を利用したスマートコントラクト脆弱性検出手法であるSmartLLMSentryを紹介する。
モデルトレーニングと評価のために、ランダムに選択された5つの脆弱性の特別なデータセットを作成しました。
その結果, GPT-4 はルール生成における GPT-3 と比較して, 精度が 91.1% であることがわかった。
論文 参考訳(メタデータ) (2024-11-28T16:02:01Z) - QuanCrypt-FL: Quantized Homomorphic Encryption with Pruning for Secure Federated Learning [0.48342038441006796]
我々は,攻撃に対する防御を強化するために,低ビット量子化とプルーニング技術を組み合わせた新しいアルゴリズムQuanCrypt-FLを提案する。
我々は、MNIST、CIFAR-10、CIFAR-100データセットに対するアプローチを検証し、最先端手法と比較して優れた性能を示す。
QuanCrypt-FLは、最大9倍高速暗号化、16倍高速復号化、1.5倍高速推論を実現し、トレーニング時間を最大3倍短縮する。
論文 参考訳(メタデータ) (2024-11-08T01:46:00Z) - Encryption-Friendly LLM Architecture [11.386436468650016]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号状態における算術演算をサポートする暗号プロトコルである。
本稿では,パーソナライズされた(プライベートな)微調整による推論を重視した改良型HE-Friendly Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-03T13:48:35Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - $\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts [42.425214236116865]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールアップするための有望なフレームワークとして人気が高まっている。
我々は,SMoEの信頼性を3つの側面から総合的に評価する$textttMoE-RBenchを提案し,その安全性と幻覚,攻撃に対するレジリエンス,および$textit(iii)$out-of-distribution robustnessを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:17:05Z) - Robust Mixture-of-Expert Training for Convolutional Neural Networks [141.3531209949845]
スパースゲート型Mixture of Expert (MoE) は高精度で超効率的なモデル推論を実現するための大きな可能性を実証している。
本稿では、AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。
その結果,AdvMoEは従来の高密度CNNに比べて1%の対向ロバスト性向上を実現し,親和性に富むMoEの有効性を享受できることがわかった。
論文 参考訳(メタデータ) (2023-08-19T20:58:21Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。