論文の概要: MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision
Transformer with Heterogeneous Attention
- arxiv url: http://arxiv.org/abs/2211.13955v3
- Date: Sat, 19 Aug 2023 08:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 02:26:34.040132
- Title: MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision
Transformer with Heterogeneous Attention
- Title(参考訳): MPCViT:不均一注意を伴う高精度かつ効率的なMPC対応視覚変換器の探索
- Authors: Wenxuan Zeng, Meng Li, Wenjie Xiong, Tong Tong, Wen-jie Lu, Jin Tan,
Runsheng Wang, Ru Huang
- Abstract要約: 我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。
広範な実験により、MPCViTは6.2倍、2.9倍、および1.9倍の遅延低減で1.9%、1.3%、および3.6%の精度を達成した。
- 参考スコア(独自算出の注目度): 11.999596399083089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Secure multi-party computation (MPC) enables computation directly on
encrypted data and protects both data and model privacy in deep learning
inference. However, existing neural network architectures, including Vision
Transformers (ViTs), are not designed or optimized for MPC and incur
significant latency overhead. We observe Softmax accounts for the major latency
bottleneck due to a high communication complexity, but can be selectively
replaced or linearized without compromising the model accuracy. Hence, in this
paper, we propose an MPC-friendly ViT, dubbed MPCViT, to enable accurate yet
efficient ViT inference in MPC. Based on a systematic latency and accuracy
evaluation of the Softmax attention and other attention variants, we propose a
heterogeneous attention optimization space. We also develop a simple yet
effective MPC-aware neural architecture search algorithm for fast Pareto
optimization. To further boost the inference efficiency, we propose MPCViT+, to
jointly optimize the Softmax attention and other network components, including
GeLU, matrix multiplication, etc. With extensive experiments, we demonstrate
that MPCViT achieves 1.9%, 1.3% and 3.6% higher accuracy with 6.2x, 2.9x and
1.9x latency reduction compared with baseline ViT, MPCFormer and THE-X on the
Tiny-ImageNet dataset, respectively. MPCViT+ further achieves a better Pareto
front compared with MPCViT. The code and models for evaluation are available at
https://github.com/PKU-SEC-Lab/mpcvit.
- Abstract(参考訳): セキュアなマルチパーティ計算(MPC)は、暗号化されたデータに直接計算を可能にし、ディープラーニング推論におけるデータとモデルのプライバシの両方を保護する。
しかし、ビジョントランスフォーマー(ViT)を含む既存のニューラルネットワークアーキテクチャは、MPC用に設計や最適化されておらず、重大な遅延オーバーヘッドを発生させる。
通信の複雑さが高いため,Softmaxは遅延ボトルネックの原因となっているが,モデルの精度を損なうことなく,選択的に置き換えたり線形化したりすることができる。
そこで本稿では,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。
ソフトマックス・アテンションおよびその他のアテンション・バリアントの系統的遅延と精度評価に基づいて,不均質なアテンション最適化空間を提案する。
また,高速パレート最適化のためのMPC対応ニューラルネットワーク探索アルゴリズムを開発した。
推論効率をさらに高めるため,GeLUや行列乗算など,Softmaxアテンションと他のネットワークコンポーネントを協調的に最適化するMPCViT+を提案する。
広範な実験により,mpcvitは1.9%,1.3%,3.6%の精度で6.2x,2.9x,1.9xのレイテンシ低減を達成し,それぞれベースラインのvit,mpcformer,the-xと比較した。
MPCViT+はMPCViTよりもパレートが優れている。
評価のためのコードとモデルはhttps://github.com/PKU-SEC-Lab/mpcvitで公開されている。
関連論文リスト
- FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文 参考訳(メタデータ) (2023-05-31T02:34:36Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Adam in Private: Secure and Fast Training of Deep Neural Networks with
Adaptive Moment Estimation [6.342794803074475]
本稿では,最先端の機械学習アルゴリズムを効率的に評価するフレームワークを提案する。
これは、MLアルゴリズムを「MPCフレンドリ」な変種に置き換える以前のほとんどの作業とは対照的である。
我々は、最先端のサードパーティシステムより優れたセキュアなトレーニングを得る。
論文 参考訳(メタデータ) (2021-06-04T01:40:09Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - MUXConv: Information Multiplexing in Convolutional Neural Networks [25.284420772533572]
MUXConvは、ネットワーク内のチャンネルと空間情報を段階的に多重化することで、情報の流れを増大させるように設計されている。
ImageNetでは、MUXNetsと呼ばれる結果のモデルが、MobileNetV3のパフォーマンス(75.3%のトップ-1精度)と乗算演算(218M)に一致している。
MUXNetは、転送学習やオブジェクト検出に適応する際にもよく機能する。
論文 参考訳(メタデータ) (2020-03-31T00:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。