論文の概要: ENSI: Efficient Non-Interactive Secure Inference for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09424v1
- Date: Thu, 11 Sep 2025 13:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.390215
- Title: ENSI: Efficient Non-Interactive Secure Inference for Large Language Models
- Title(参考訳): ENSI:大規模言語モデルに対する効率的な非対話型セキュア推論
- Authors: Zhiyu He, Maojiang Wang, Xinwen Gao, Yuchuan Luo, Lin Liu, Shaojing Fu,
- Abstract要約: 大規模言語モデル(LLM)のための新しいセキュア推論フレームワークであるENSIを提案する。
ENSI は CKKS スキームを軽量 LLM 変種 BitNet とシームレスに統合する最適化された符号化方式を採用している。
本稿では,行列乗算の約8倍の高速化と,CPU上でのソフトマックス推論の2.6倍の高速化を実現することを実証する。
- 参考スコア(独自算出の注目度): 10.82684192498215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Secure inference enables privacy-preserving machine learning by leveraging cryptographic protocols that support computations on sensitive user data without exposing it. However, integrating cryptographic protocols with large language models (LLMs) presents significant challenges, as the inherent complexity of these protocols, together with LLMs' massive parameter scale and sophisticated architectures, severely limits practical usability. In this work, we propose ENSI, a novel non-interactive secure inference framework for LLMs, based on the principle of co-designing the cryptographic protocols and LLM architecture. ENSI employs an optimized encoding strategy that seamlessly integrates CKKS scheme with a lightweight LLM variant, BitNet, significantly reducing the computational complexity of encrypted matrix multiplications. In response to the prohibitive computational demands of softmax under homomorphic encryption (HE), we pioneer the integration of the sigmoid attention mechanism with HE as a seamless, retraining-free alternative. Furthermore, by embedding the Bootstrapping operation within the RMSNorm process, we efficiently refresh ciphertexts while markedly decreasing the frequency of costly bootstrapping invocations. Experimental evaluations demonstrate that ENSI achieves approximately an 8x acceleration in matrix multiplications and a 2.6x speedup in softmax inference on CPU compared to state-of-the-art method, with the proportion of bootstrapping is reduced to just 1%.
- Abstract(参考訳): セキュア推論は、機密性の高いユーザデータの計算をサポートする暗号化プロトコルを活用することで、プライバシ保護機械学習を可能にする。
しかし、暗号プロトコルを大きな言語モデル(LLM)と統合することは、LLMの膨大なパラメータスケールと高度なアーキテクチャとともに、これらのプロトコルの本質的な複雑さが、実用的なユーザビリティを著しく制限しているため、重大な課題を提起する。
本研究では,暗号プロトコルとLLMアーキテクチャを協調設計する原理に基づく,新たなLLMのための非対話型セキュア推論フレームワークであるENSIを提案する。
ENSI は CKKS スキームを軽量 LLM 変種 BitNet とシームレスに統合する最適化された符号化方式を採用し、暗号化行列乗算の計算量を大幅に削減する。
ホモモルフィック暗号(HE)の下でのソフトマックスの計算要求の禁止に対応するため、我々は、シームレスでリトレーニング不要な代替手段として、シグモイドアテンション機構とHEの統合を開拓した。
さらに、RMSNormプロセスにブートストラップ操作を埋め込むことで、暗号文を効率よくリフレッシュし、コストのかかるブートストラップ呼び出しの頻度を著しく低減する。
実験により、ENSIは行列乗算において約8倍の加速を実現し、CPU上でのソフトマックス推論では2.6倍の高速化を実現し、ブートストラップの割合は1%に低下した。
関連論文リスト
- Silentflow: Leveraging Trusted Execution for Resource-Limited MPC via Hardware-Algorithm Co-design [6.998260344481881]
我々はCOT生成における通信を排除するプロトコルであるSilentflowを紹介する。
エンドツーエンドのレイテンシとリソース要求のバランスをとり、最先端のプロトコルよりも39.51倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-08-18T21:00:10Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。
FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。
ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文 参考訳(メタデータ) (2025-06-06T00:05:05Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - SOCI^+: An Enhanced Toolkit for Secure OutsourcedComputation on Integers [50.608828039206365]
本稿では,SOCIの性能を大幅に向上させるSOCI+を提案する。
SOCI+は、暗号プリミティブとして、高速な暗号化と復号化を備えた(2, 2)ホールドのPaillier暗号システムを採用している。
実験の結果,SOCI+は計算効率が最大5.4倍,通信オーバヘッドが40%少ないことがわかった。
論文 参考訳(メタデータ) (2023-09-27T05:19:32Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。