論文の概要: SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.00793v1
- Date: Mon, 1 Jan 2024 15:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:44:20.399759
- Title: SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for
Large Language Models
- Title(参考訳): SecFormer: 大規模言語モデルの高速かつ正確なプライバシ保護推論を目指す
- Authors: Jinglong Luo, Yehong Zhang, Jiaqi Zhang, Xin Mu, Hui Wang, Yue Yu,
Zenglin Xu
- Abstract要約: SecFormer は Transformer モデルの PPI のパフォーマンスと効率の最適なバランスをとるように設計されている。
知識蒸留技術を実装することにより,モデル性能を犠牲にすることなく,PPIの高コスト指数および最大演算を効果的に除去する。
実験の結果,SecFormer は MPCFormer よりも性能が優れ,BERT$_textBASE$ と BERT$_textLARGE$ の 5.6% と $24.2% の改善が見られた。
- 参考スコア(独自算出の注目度): 35.791279225769685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing use of large language models hosted on cloud platforms to
offer inference services, privacy concerns are escalating, especially
concerning sensitive data like investment plans and bank account details.
Secure Multi-Party Computing (SMPC) emerges as a promising solution to protect
the privacy of inference data and model parameters. However, the application of
SMPC in Privacy-Preserving Inference (PPI) for large language models,
particularly those based on the Transformer architecture, often leads to
considerable slowdowns or declines in performance. This is largely due to the
multitude of nonlinear operations in the Transformer architecture, which are
not well-suited to SMPC and are difficult to circumvent or optimize
effectively. To address this concern, we introduce an advanced optimization
framework called SecFormer, designed to strike an optimal balance between
performance and efficiency in PPI for Transformer models. By implementing
knowledge distillation techniques, we successfully eliminate the high-cost
exponential and maximum operations in PPI without sacrificing model
performance. Additionally, we have developed a suite of efficient SMPC
protocols that utilize segmented polynomials and Goldschmidt's method to handle
other complex nonlinear functions within PPI, such as GeLU, LayerNorm, and
Softmax. Our extensive experiments reveal that SecFormer outperforms MPCFormer
in performance, showing improvements of $5.6\%$ and $24.2\%$ for
BERT$_{\text{BASE}}$ and BERT$_{\text{LARGE}}$, respectively. In terms of
efficiency, SecFormer is 3.4 and 3.2 times faster than Puma, demonstrating its
effectiveness and speed.
- Abstract(参考訳): クラウドプラットフォームにホストされる大規模言語モデルを使用して推論サービスを提供することで、特に投資計画や銀行口座の詳細といった機密データに関して、プライバシの懸念が高まっている。
セキュアなマルチパーティコンピューティング(smpc)は、推論データとモデルパラメータのプライバシを保護するための有望なソリューションとして現れる。
しかし、大きな言語モデル、特に Transformer アーキテクチャに基づくモデルに対する SMPC のプライバシ保存推論(PPI)への応用は、性能の大幅な低下や低下につながることが多い。
これは主に、smpcには適しておらず、効果的に回避や最適化が難しいトランスフォーマーアーキテクチャにおける多数の非線形操作に起因する。
この問題に対処するため,TransformerモデルにおけるPPIの性能と効率の最適バランスを確保するために,SecFormerという高度な最適化フレームワークを導入した。
知識蒸留技術を実装することにより,モデル性能を犠牲にすることなく,PPIの高コスト指数および最大演算をうまく除去する。
さらに,GeLUやLayerNorm,SoftmaxといったPPI内の複素非線形関数を扱うために,分割多項式とGoldschmidt法を利用した効率的なSMPCプロトコル群を開発した。
我々の広範な実験によると、SecFormerはMPCFormerのパフォーマンスより優れており、BERT$_{\text{BASE}}$とBERT$_{\text{LARGE}}$に対して5.6\%$と24.2\%$がそれぞれ改善されている。
効率の面では、secformerはpumaの3.4倍と3.2倍高速であり、その効果と速度を示している。
関連論文リスト
- AERO: Softmax-Only LLMs for Efficient Private Inference [3.7802450241986945]
本稿では,変換器を用いたデコーダのみの言語モデルにおける非線形性の役割を理解するための包括的解析を行う。
AEROは,既存のLLMアーキテクチャを改良した4段階アーキテクチャ最適化フレームワークである。
まず,効率のよい PI に適したFLOP が大幅に少ないSoftmax のみのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-16T21:40:49Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Ditto: Quantization-aware Secure Inference of Transformers upon MPC [5.161569981377991]
我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
論文 参考訳(メタデータ) (2024-05-09T03:28:16Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - East: Efficient and Accurate Secure Transformer Framework for Inference [7.887332345182056]
本稿では,効率的なセキュアトランスフォーマー推論を実現するためのフレームワークemphEastを提案する。
Ironと比較して、1.2$times$ローランタイム内で、約1.8$times$ロー通信を実現しています。
論文 参考訳(メタデータ) (2023-08-19T06:26:14Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。