論文の概要: MPCFormer: fast, performant and private Transformer inference with MPC
- arxiv url: http://arxiv.org/abs/2211.01452v1
- Date: Wed, 2 Nov 2022 19:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:22:11.043378
- Title: MPCFormer: fast, performant and private Transformer inference with MPC
- Title(参考訳): MPCFormer:MPCを用いた高速・高性能・プライベートトランスフォーマー推論
- Authors: Dacheng Li, Rulin Shao, Hongyi Wang, Han Guo, Eric P. Xing, Hao Zhang
- Abstract要約: セキュアなマルチパーティ計算(MPC)と知識蒸留(KD)を用いたフレームワークMPCFORMERを設計する。
MPCFORMERは入力モデルに類似したML性能を実現しつつ、MPC設定でのTransformerモデル推論を著しく高速化する。
MPCFORMER は ROBERTABASE や BERTLarge などの大型モデルのような異なる訓練されたトランスフォーマーウェイトで有効であることを示す。
- 参考スコア(独自算出の注目度): 64.23599808800738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling private inference is crucial for many cloud inference services that
are based on Transformer models. However, existing private inference solutions
for Transformers can increase the inference latency by more than 60x or
significantly compromise the quality of inference results. In this paper, we
design the framework MPCFORMER using secure multi-party computation (MPC) and
Knowledge Distillation (KD). It can be used in tandem with many specifically
designed MPC-friendly approximations and trained Transformer models. MPCFORMER
significantly speeds up Transformer model inference in MPC settings while
achieving similar ML performance to the input model. We evaluate MPCFORMER with
various settings in MPC. On the IMDb dataset, we achieve similar performance to
BERTBASE, while being 5.3x faster. On the GLUE benchmark, we achieve 97%
performance of BERTBASE with a 2.2x speedup. We show that MPCFORMER remains
effective with different trained Transformer weights such as ROBERTABASE and
larger models including BERTLarge. In particular, we achieve similar
performance to BERTLARGE, while being 5.93x faster on the IMDb dataset.
- Abstract(参考訳): プライベート推論の導入は、Transformerモデルに基づく多くのクラウド推論サービスにとって不可欠である。
しかし、トランスフォーマー用の既存のプライベート推論ソリューションは、推論レイテンシを60倍以上に向上させるか、推論結果の品質を著しく損なう可能性がある。
本稿では,セキュアなマルチパーティ計算(MPC)と知識蒸留(KD)を用いたフレームワークMPCFORMERを設計する。
多くの特別に設計されたmpcフレンドリーな近似や訓練されたトランスフォーマーモデルと組み合わせて使用できる。
MPCFORMERは入力モデルに類似したML性能を実現しつつ、MPC設定でのTransformerモデル推論を著しく高速化する。
MPCの様々な設定でMPCFORMERを評価する。
IMDbデータセットではBERTBASEと同じような性能を示し、5.3倍高速である。
GLUEベンチマークでは、BERTBASEの97%のパフォーマンスを2.2倍のスピードアップで達成している。
MPCFORMER は ROBERTABASE や BERTLarge などの大型モデルのような異なる訓練されたトランスフォーマーウェイトで有効であることを示す。
IMDbデータセットでは,BERTLARGEが5.93倍高速であるのに対して,BERTLARGEと同じような性能を実現している。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Ditto: Quantization-aware Secure Inference of Transformers upon MPC [5.161569981377991]
我々は、より効率的な量子化対応セキュアトランスフォーマー推論を実現するために、Dittoというフレームワークを提案する。
本稿では,Bert モデルと GPT2 モデルを用いて,Ditto の性能評価を行う。
その結果、DittoはMPCFormerより約$3.14sim 4.40times、最先端のPUMAより$1.44sim 2.35timesが速いことがわかった。
論文 参考訳(メタデータ) (2024-05-09T03:28:16Z) - SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models [34.63351580241698]
本稿では,Transformerモデルに対する高速かつ正確なPPIを実現するために,SecFormerという高度な最適化フレームワークを導入する。
効率面では、SecFormerは、BERT$_textBASE$とBERT$_textLARGE$のPumaよりも3.56倍高速である。
論文 参考訳(メタデータ) (2024-01-01T15:40:35Z) - MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision
Transformer with Heterogeneous Attention [11.999596399083089]
我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。
広範な実験により、MPCViTは6.2倍、2.9倍、および1.9倍の遅延低減で1.9%、1.3%、および3.6%の精度を達成した。
論文 参考訳(メタデータ) (2022-11-25T08:37:17Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Shatter: An Efficient Transformer Encoder with Single-Headed
Self-Attention and Relative Sequence Partitioning [14.164984597158501]
トランスフォーマーアーキテクチャは、自己注意に基づくもので、BERTのような大規模な事前訓練モデルの基礎となっている。
シーケンス情報をより効率的にエンコードする、別の自己アテンションアーキテクチャShatterを提案する。
我々は、ShatterがBERTよりも優れたパフォーマンスを達成することを示す広範な実験を行う。
論文 参考訳(メタデータ) (2021-08-30T07:42:12Z) - Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文 参考訳(メタデータ) (2021-05-17T17:55:04Z) - Face Transformer for Recognition [67.02323570055894]
顔認識におけるトランスフォーマーモデルの性能について検討する。
モデルは大規模な顔認識データベースMS-Celeb-1Mで訓練される。
我々は,Transformer モデルが CNN と同等の性能を示し,パラメータ数とMAC の類似性を実証した。
論文 参考訳(メタデータ) (2021-03-27T03:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。