論文の概要: SecMoE: Communication-Efficient Secure MoE Inference via Select-Then-Compute
- arxiv url: http://arxiv.org/abs/2601.06790v1
- Date: Sun, 11 Jan 2026 06:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.98941
- Title: SecMoE: Communication-Efficient Secure MoE Inference via Select-Then-Compute
- Title(参考訳): SecMoE:Select-Then-Computeによる通信効率の良いセキュアなMoE推論
- Authors: Bowen Shen, Yuyue Chen, Peng Yang, Bin Zhang, Xi Zhang, Zoe L. Jiang,
- Abstract要約: プライバシー保護トランスフォーマー推論は、個人情報の漏洩の可能性から注目を集めている。
プライバシと効率の制限に対処するため,2PCのプライバシ保護推論フレームワークSecMoEを提案する。
5つの専門家設定の下で、SecMoEはエンドツーエンドのプライベート通信を1.8$7.1$times$に下げ、1.3$sim$3.8$times$スピードアップを達成する。
- 参考スコア(独自算出の注目度): 14.230239851387566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy-preserving Transformer inference has gained attention due to the potential leakage of private information. Despite recent progress, existing frameworks still fall short of practical model scales, with gaps up to a hundredfold. A possible way to close this gap is the Mixture of Experts (MoE) architecture, which has emerged as a promising technique to scale up model capacity with minimal overhead. However, given that the current secure two-party (2-PC) protocols allow the server to homomorphically compute the FFN layer with its plaintext model weight, under the MoE setting, this could reveal which expert is activated to the server, exposing token-level privacy about the client's input. While naively evaluating all the experts before selection could protect privacy, it nullifies MoE sparsity and incurs the heavy computational overhead that sparse MoE seeks to avoid. To address the privacy and efficiency limitations above, we propose a 2-PC privacy-preserving inference framework, \SecMoE. Unifying per-entry circuits in both the MoE layer and piecewise polynomial functions, \SecMoE obliviously selects the extracted parameters from circuits and only computes one encrypted entry, which we refer to as Select-Then-Compute. This makes the model for private inference scale to 63$\times$ larger while only having a 15.2$\times$ increase in end-to-end runtime. Extensive experiments show that, under 5 expert settings, \SecMoE lowers the end-to-end private inference communication by 1.8$\sim$7.1$\times$ and achieves 1.3$\sim$3.8$\times$ speedup compared to the state-of-the-art (SOTA) protocols.
- Abstract(参考訳): プライバシー保護トランスフォーマー推論は、個人情報の漏洩の可能性から注目を集めている。
最近の進歩にもかかわらず、既存のフレームワークはいまだに100倍のギャップを持つ実用的なモデルスケールに欠けています。
このギャップを埋める1つの方法はMixture of Experts (MoE)アーキテクチャであり、最小限のオーバーヘッドでモデルキャパシティをスケールアップする有望なテクニックとして登場した。
しかし、現在のセキュアな2-PCプロトコルでは、サーバが平文モデル重みでFFN層を均質に計算できることを考えると、これはどの専門家がサーバにアクティベートされているかを明らかにし、クライアントの入力に関するトークンレベルのプライバシーを公開する可能性がある。
選択前にすべての専門家を鼻で評価することでプライバシーを保護できるが、MoEの分散性を無効化し、MoEが避けようとしている計算オーバーヘッドを発生させる。
上記のプライバシーと効率の限界に対処するため、我々は2PCのプライバシ保護推論フレームワーク \SecMoE を提案する。
MoE層とピースワイズ多項式関数の両方でエントリ単位の回路を統一し、暗黙的に抽出されたパラメータを回路から選択し、Select-Then-Computeと呼ばれる1つの暗号化エントリのみを演算する。
これにより、プライベート推論のモデルは63$\times$に拡大され、15.2$\times$のエンド・ツー・エンド・ランタイムの増加しか得られない。
5つの専門家設定の下では、SecMoEは1.8$\sim$7.1$\times$でエンドツーエンドのプライベート推論通信を減らし、1.3$\sim$3.8$\times$の高速化を実現している。
関連論文リスト
- CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing [11.584369733386536]
提案するCryptoMoEは,MoEベースのモデルに対して,プライベートかつ効率的かつ正確な推論を可能にする最初のフレームワークである。
CryptoMoEは、専門家のルーティング情報を保護するために専門家の負荷のバランスをとり、専門家のディスパッチと組み合わせをセキュアにするための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-03T03:45:08Z) - Privacy-Preserving Inference for Quantized BERT Models [13.36359444231145]
量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
論文 参考訳(メタデータ) (2025-08-03T07:52:08Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning [11.852346300577494]
フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに、協調して機械学習モデルを構築することを可能にすることで、データのプライバシを保護することを目的としている。
近年の研究では、FL中に交換された情報が勾配に基づくプライバシー攻撃の対象であることが示されている。
我々は,条件付き生成対向ネットワークを利用して高レベルのプライバシ保護を実現する新しいフェデレーション学習手法である$textscFedCG$を提案する。
論文 参考訳(メタデータ) (2021-11-16T03:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。