論文の概要: SecMoE: Communication-Efficient Secure MoE Inference via Select-Then-Compute
- arxiv url: http://arxiv.org/abs/2601.06790v1
- Date: Sun, 11 Jan 2026 06:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.98941
- Title: SecMoE: Communication-Efficient Secure MoE Inference via Select-Then-Compute
- Title(参考訳): SecMoE:Select-Then-Computeによる通信効率の良いセキュアなMoE推論
- Authors: Bowen Shen, Yuyue Chen, Peng Yang, Bin Zhang, Xi Zhang, Zoe L. Jiang,
- Abstract要約: プライバシー保護トランスフォーマー推論は、個人情報の漏洩の可能性から注目を集めている。
プライバシと効率の制限に対処するため,2PCのプライバシ保護推論フレームワークSecMoEを提案する。
5つの専門家設定の下で、SecMoEはエンドツーエンドのプライベート通信を1.8$7.1$times$に下げ、1.3$sim$3.8$times$スピードアップを達成する。
- 参考スコア(独自算出の注目度): 14.230239851387566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy-preserving Transformer inference has gained attention due to the potential leakage of private information. Despite recent progress, existing frameworks still fall short of practical model scales, with gaps up to a hundredfold. A possible way to close this gap is the Mixture of Experts (MoE) architecture, which has emerged as a promising technique to scale up model capacity with minimal overhead. However, given that the current secure two-party (2-PC) protocols allow the server to homomorphically compute the FFN layer with its plaintext model weight, under the MoE setting, this could reveal which expert is activated to the server, exposing token-level privacy about the client's input. While naively evaluating all the experts before selection could protect privacy, it nullifies MoE sparsity and incurs the heavy computational overhead that sparse MoE seeks to avoid. To address the privacy and efficiency limitations above, we propose a 2-PC privacy-preserving inference framework, \SecMoE. Unifying per-entry circuits in both the MoE layer and piecewise polynomial functions, \SecMoE obliviously selects the extracted parameters from circuits and only computes one encrypted entry, which we refer to as Select-Then-Compute. This makes the model for private inference scale to 63$\times$ larger while only having a 15.2$\times$ increase in end-to-end runtime. Extensive experiments show that, under 5 expert settings, \SecMoE lowers the end-to-end private inference communication by 1.8$\sim$7.1$\times$ and achieves 1.3$\sim$3.8$\times$ speedup compared to the state-of-the-art (SOTA) protocols.
- Abstract(参考訳): プライバシー保護トランスフォーマー推論は、個人情報の漏洩の可能性から注目を集めている。
最近の進歩にもかかわらず、既存のフレームワークはいまだに100倍のギャップを持つ実用的なモデルスケールに欠けています。
このギャップを埋める1つの方法はMixture of Experts (MoE)アーキテクチャであり、最小限のオーバーヘッドでモデルキャパシティをスケールアップする有望なテクニックとして登場した。
しかし、現在のセキュアな2-PCプロトコルでは、サーバが平文モデル重みでFFN層を均質に計算できることを考えると、これはどの専門家がサーバにアクティベートされているかを明らかにし、クライアントの入力に関するトークンレベルのプライバシーを公開する可能性がある。
選択前にすべての専門家を鼻で評価することでプライバシーを保護できるが、MoEの分散性を無効化し、MoEが避けようとしている計算オーバーヘッドを発生させる。
上記のプライバシーと効率の限界に対処するため、我々は2PCのプライバシ保護推論フレームワーク \SecMoE を提案する。
MoE層とピースワイズ多項式関数の両方でエントリ単位の回路を統一し、暗黙的に抽出されたパラメータを回路から選択し、Select-Then-Computeと呼ばれる1つの暗号化エントリのみを演算する。
これにより、プライベート推論のモデルは63$\times$に拡大され、15.2$\times$のエンド・ツー・エンド・ランタイムの増加しか得られない。
5つの専門家設定の下では、SecMoEは1.8$\sim$7.1$\times$でエンドツーエンドのプライベート推論通信を減らし、1.3$\sim$3.8$\times$の高速化を実現している。
関連論文リスト
- Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs [33.54139088666698]
大規模言語モデル(LLM)は拡大を続けており、サードパーティホスティングサービスの利用が増加している。
既存の推論検証ツールは通常、ゼロ知識証明(ZKP)のような暗号の手法に依存している。
我々は、私的LLM推論を行う方法を考えると、限界余剰コストで検証された推論の形式を得ることができる新しい知見を開発する。
論文 参考訳(メタデータ) (2026-02-19T10:15:51Z) - Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs [61.15237978606501]
大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:37:50Z) - CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing [11.584369733386536]
提案するCryptoMoEは,MoEベースのモデルに対して,プライベートかつ効率的かつ正確な推論を可能にする最初のフレームワークである。
CryptoMoEは、専門家のルーティング情報を保護するために専門家の負荷のバランスをとり、専門家のディスパッチと組み合わせをセキュアにするための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-03T03:45:08Z) - Privacy-Preserving Inference for Quantized BERT Models [13.36359444231145]
量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
論文 参考訳(メタデータ) (2025-08-03T07:52:08Z) - PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts [59.5243730853157]
クラウドサーバにホストされる大規模言語モデル(LLM)は、ローカルデバイス上の計算とストレージの負担を軽減するが、プライバシの懸念を高める。
小規模言語モデル(SLM)は、ローカルで実行されるためプライバシーが向上するが、複雑なタスクではパフォーマンスが制限される。
帯域幅制約下での計算コスト,性能,プライバシ保護のバランスをとるために,プライバシを意識したPWC-MoE(PWC-MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:27:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning [11.852346300577494]
フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに、協調して機械学習モデルを構築することを可能にすることで、データのプライバシを保護することを目的としている。
近年の研究では、FL中に交換された情報が勾配に基づくプライバシー攻撃の対象であることが示されている。
我々は,条件付き生成対向ネットワークを利用して高レベルのプライバシ保護を実現する新しいフェデレーション学習手法である$textscFedCG$を提案する。
論文 参考訳(メタデータ) (2021-11-16T03:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。