論文の概要: Ditto: Quantization-aware Secure Inference of Transformers upon MPC
- arxiv url: http://arxiv.org/abs/2405.05525v1
- Date: Thu, 9 May 2024 03:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:12:43.940130
- Title: Ditto: Quantization-aware Secure Inference of Transformers upon MPC
- Title(参考訳): Ditto: MPC上の変圧器の量子化対応セキュア推論
- Authors: Haoqi Wu, Wenjing Fang, Yancheng Zheng, Junming Ma, Jin Tan, Yinggui Wang, Lei Wang,
- Abstract要約: 我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
- 参考スコア(独自算出の注目度): 5.161569981377991
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the rising privacy concerns on sensitive client data and trained models like Transformers, secure multi-party computation (MPC) techniques are employed to enable secure inference despite attendant overhead. Existing works attempt to reduce the overhead using more MPC-friendly non-linear function approximations. However, the integration of quantization widely used in plaintext inference into the MPC domain remains unclear. To bridge this gap, we propose the framework named Ditto to enable more efficient quantization-aware secure Transformer inference. Concretely, we first incorporate an MPC-friendly quantization into Transformer inference and employ a quantization-aware distillation procedure to maintain the model utility. Then, we propose novel MPC primitives to support the type conversions that are essential in quantization and implement the quantization-aware MPC execution of secure quantized inference. This approach significantly decreases both computation and communication overhead, leading to improvements in overall efficiency. We conduct extensive experiments on Bert and GPT2 models to evaluate the performance of Ditto. The results demonstrate that Ditto is about $3.14\sim 4.40\times$ faster than MPCFormer (ICLR 2023) and $1.44\sim 2.35\times$ faster than the state-of-the-art work PUMA with negligible utility degradation.
- Abstract(参考訳): 機密性の高いクライアントデータやTransformerのようなトレーニング済みモデルに対するプライバシの懸念が高まっているため、アテンダントオーバーヘッドにもかかわらずセキュアな推論を可能にするために、セキュアなマルチパーティ計算(MPC)技術が採用されている。
既存の作業は、よりMPCフレンドリな非線形関数近似を用いてオーバーヘッドを削減する。
しかし、平文推論で広く使われている量子化のMPC領域への統合は、まだ不明である。
このギャップを埋めるため、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
具体的には、まずトランスフォーマー推論にMPCフレンドリな量子化を導入し、モデルユーティリティを維持するために量子化対応蒸留法を用いる。
次に、量子化に不可欠な型変換をサポートする新しいMPCプリミティブを提案し、セキュアな量子化推論の量子化を考慮したMPC実行を実装した。
このアプローチは計算と通信のオーバーヘッドを大幅に減らし、全体的な効率が向上する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、Ditto は MPCFormer (ICLR 2023) よりも約3.14\sim 4.40\times$、最先端の PUMA よりも1.44\sim 2.35\times$1.44\sim 235\times$ であることがわかった。
関連論文リスト
- MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Optimization of Quantum Systems Emulation via a Variant of the Bandwidth Minimization Problem [41.94295877935867]
重み付きBMPは帯域最小化問題(BMP)の変種である
この問題をMILP (Mixed Linear Program) を用いて定式化し, 解法の状態を用いて最適に解く。
数値実験により、重み付きBMP法は逆カットヒル・マッキー法(RCM)よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T16:04:37Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models [34.63351580241698]
本稿では,Transformerモデルに対する高速かつ正確なPPIを実現するために,SecFormerという高度な最適化フレームワークを導入する。
効率面では、SecFormerは、BERT$_textBASE$とBERT$_textLARGE$のPumaよりも3.56倍高速である。
論文 参考訳(メタデータ) (2024-01-01T15:40:35Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。