論文の概要: SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.00793v1
- Date: Mon, 1 Jan 2024 15:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:44:20.399759
- Title: SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for
Large Language Models
- Title(参考訳): SecFormer: 大規模言語モデルの高速かつ正確なプライバシ保護推論を目指す
- Authors: Jinglong Luo, Yehong Zhang, Jiaqi Zhang, Xin Mu, Hui Wang, Yue Yu,
Zenglin Xu
- Abstract要約: SecFormer は Transformer モデルの PPI のパフォーマンスと効率の最適なバランスをとるように設計されている。
知識蒸留技術を実装することにより,モデル性能を犠牲にすることなく,PPIの高コスト指数および最大演算を効果的に除去する。
実験の結果,SecFormer は MPCFormer よりも性能が優れ,BERT$_textBASE$ と BERT$_textLARGE$ の 5.6% と $24.2% の改善が見られた。
- 参考スコア(独自算出の注目度): 35.791279225769685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing use of large language models hosted on cloud platforms to
offer inference services, privacy concerns are escalating, especially
concerning sensitive data like investment plans and bank account details.
Secure Multi-Party Computing (SMPC) emerges as a promising solution to protect
the privacy of inference data and model parameters. However, the application of
SMPC in Privacy-Preserving Inference (PPI) for large language models,
particularly those based on the Transformer architecture, often leads to
considerable slowdowns or declines in performance. This is largely due to the
multitude of nonlinear operations in the Transformer architecture, which are
not well-suited to SMPC and are difficult to circumvent or optimize
effectively. To address this concern, we introduce an advanced optimization
framework called SecFormer, designed to strike an optimal balance between
performance and efficiency in PPI for Transformer models. By implementing
knowledge distillation techniques, we successfully eliminate the high-cost
exponential and maximum operations in PPI without sacrificing model
performance. Additionally, we have developed a suite of efficient SMPC
protocols that utilize segmented polynomials and Goldschmidt's method to handle
other complex nonlinear functions within PPI, such as GeLU, LayerNorm, and
Softmax. Our extensive experiments reveal that SecFormer outperforms MPCFormer
in performance, showing improvements of $5.6\%$ and $24.2\%$ for
BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, respectively. In terms of
efficiency, SecFormer is 3.4 and 3.2 times faster than Puma, demonstrating its
effectiveness and speed.
- Abstract(参考訳): クラウドプラットフォームにホストされる大規模言語モデルを使用して推論サービスを提供することで、特に投資計画や銀行口座の詳細といった機密データに関して、プライバシの懸念が高まっている。
セキュアなマルチパーティコンピューティング(smpc)は、推論データとモデルパラメータのプライバシを保護するための有望なソリューションとして現れる。
しかし、大きな言語モデル、特に Transformer アーキテクチャに基づくモデルに対する SMPC のプライバシ保存推論(PPI)への応用は、性能の大幅な低下や低下につながることが多い。
これは主に、smpcには適しておらず、効果的に回避や最適化が難しいトランスフォーマーアーキテクチャにおける多数の非線形操作に起因する。
この問題に対処するため,TransformerモデルにおけるPPIの性能と効率の最適バランスを確保するために,SecFormerという高度な最適化フレームワークを導入した。
知識蒸留技術を実装することにより,モデル性能を犠牲にすることなく,PPIの高コスト指数および最大演算をうまく除去する。
さらに,GeLUやLayerNorm,SoftmaxといったPPI内の複素非線形関数を扱うために,分割多項式とGoldschmidt法を利用した効率的なSMPCプロトコル群を開発した。
我々の広範な実験によると、SecFormerはMPCFormerのパフォーマンスより優れており、BERT$_{\text{BASE}}$とBERT$_{\text{LARGE}}$に対して5.6\%$と24.2\%$がそれぞれ改善されている。
効率の面では、secformerはpumaの3.4倍と3.2倍高速であり、その効果と速度を示している。
関連論文リスト
- Accelerating Private Large Transformers Inference through Fine-grained Collaborative Computation [8.859237832459876]
FASTLMPIは、微粒な最適化により、プライベートなTBM推論を高速化する新しい手法である。
具体的には、ホモモルフィック暗号化と秘密共有の詳細な共設計により、FASTLMPIは行列乗算、SoftMax、LayerNorm、GeLULUの効率的なプロトコルを実現する。
FASTLMPIは、実行時の54%から64%の大幅な減少と、通信コストの72.2%の大幅な削減を示している。
論文 参考訳(メタデータ) (2024-12-21T08:33:12Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - AdaPI: Facilitating DNN Model Adaptivity for Efficient Private Inference in Edge Computing [20.11448308239082]
AdaPIは、多様なエネルギー予算を持つエッジデバイス間でモデルをうまく動作させることにより、適応的なPIを実現する新しいアプローチである。
AdaPIは各エネルギー予算に対して最適な精度を達成し、CIFAR-100の試験精度で最先端のPI手法を7.3%上回っている。
論文 参考訳(メタデータ) (2024-07-08T05:58:49Z) - Ditto: Quantization-aware Secure Inference of Transformers upon MPC [5.161569981377991]
我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
論文 参考訳(メタデータ) (2024-05-09T03:28:16Z) - Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy [47.997934291881414]
既存の平均推定スキームは、通常、$L_infty$幾何に最適化され、ランダムな回転や、$L$幾何に適応するカシンの表現に依存する。
本稿では,スパシフィケーションに固有のランダム性をDPに組み込んだ,スパシフィケーションガウシアン機構の新たなプライバシ会計手法を提案する。
従来の手法とは異なり、我々の会計アルゴリズムは直接$L$幾何で動作し、ガウスの機構に迅速に収束するMSEが得られる。
論文 参考訳(メタデータ) (2024-05-02T03:48:47Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - East: Efficient and Accurate Secure Transformer Framework for Inference [7.887332345182056]
本稿では,効率的なセキュアトランスフォーマー推論を実現するためのフレームワークemphEastを提案する。
Ironと比較して、1.2$times$ローランタイム内で、約1.8$times$ロー通信を実現しています。
論文 参考訳(メタデータ) (2023-08-19T06:26:14Z) - MPCFormer: fast, performant and private Transformer inference with MPC [64.23599808800738]
セキュアなマルチパーティ計算(MPC)と知識蒸留(KD)を用いたフレームワークMPCFORMERを設計する。
MPCFORMERは入力モデルに類似したML性能を実現しつつ、MPC設定でのTransformerモデル推論を著しく高速化する。
MPCFORMER は ROBERTABASE や BERTLarge などの大型モデルのような異なる訓練されたトランスフォーマーウェイトで有効であることを示す。
論文 参考訳(メタデータ) (2022-11-02T19:43:22Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。