Fugu-MT 論文翻訳(概要): MPCViT: Searching for MPC-friendly Vision Transformer with Heterogeneous Attention

論文の概要: MPCViT: Searching for MPC-friendly Vision Transformer with Heterogeneous Attention

arxiv url: http://arxiv.org/abs/2211.13955v1
Date: Fri, 25 Nov 2022 08:37:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 18:32:39.546116
Title: MPCViT: Searching for MPC-friendly Vision Transformer with Heterogeneous Attention
Title（参考訳）: MPCViT:不均一注意を伴うMPCフレンドリーな視覚変換器の探索
Authors: Wenxuan Zeng, Meng Li, Wenjie Xiong, Wenjie Lu, Jin Tan, Runsheng Wang, Ru Huang
Abstract要約: 我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。提案したNASアルゴリズムにより、MPCViTはLinformerやMPCFormerよりも精度良く7.9xと2.8xのレイテンシ低減を実現している。
参考スコア（独自算出の注目度）: 14.163563507949814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Secure multi-party computation (MPC) enables computation directly on encrypted data on non-colluding untrusted servers and protects both data and model privacy in deep learning inference. However, existing neural network (NN) architectures, including Vision Transformers (ViTs), are not designed or optimized for MPC protocols and incur significant latency overhead due to the Softmax function in the multi-head attention (MHA). In this paper, we propose an MPC-friendly ViT, dubbed MPCViT, to enable accurate yet efficient ViT inference in MPC. We systematically compare different attention variants in MPC and propose a heterogeneous attention search space, which combines the high-accuracy and MPC-efficient attentions with diverse structure granularities. We further propose a simple yet effective differentiable neural architecture search (NAS) algorithm for fast ViT optimization. MPCViT significantly outperforms prior-art ViT variants in MPC. With the proposed NAS algorithm, our extensive experiments demonstrate that MPCViT achieves 7.9x and 2.8x latency reduction with better accuracy compared to Linformer and MPCFormer on the Tiny-ImageNet dataset, respectively. Further, with proper knowledge distillation (KD), MPCViT even achieves 1.9% better accuracy compared to the baseline ViT with 9.9x latency reduction on the Tiny-ImageNet dataset.
Abstract（参考訳）: セキュアなマルチパーティ計算(MPC)は、非信頼できるサーバ上の暗号化されたデータを直接計算し、ディープラーニング推論におけるデータとモデルのプライバシの両方を保護する。しかし、ビジョントランスフォーマー(ViT)を含む既存のニューラルネットワーク(NN)アーキテクチャは、MPCプロトコルの設計や最適化は行われておらず、マルチヘッドアテンション(MHA)におけるSoftmax関数による大きな遅延オーバーヘッドが発生している。本稿では,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。我々は,MPCの異なる種類の注意空間を体系的に比較し,高い精度とMPC効率の注意を多様な構造粒度と組み合わせた異種注意探索空間を提案する。さらに,高速vit最適化のための簡易かつ効果的なニューラルネットワーク探索アルゴリズムを提案する。 MPCViTは、MPCの先行技術であるViTよりも大幅に優れている。提案したNASアルゴリズムを用いて,Tiny-ImageNetデータセット上でのLinformerとMPCFormerと比較して,MPCViTが7.9倍,2.8倍のレイテンシ低減を実現していることを示す。さらに、適切な知識蒸留(KD)により、MPCViTはTiny-ImageNetデータセットの9.9倍のレイテンシでベースラインのViTよりも1.9%精度が向上する。

関連論文リスト

FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文参考訳（メタデータ） (2023-11-09T19:33:50Z)
PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。 ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文参考訳（メタデータ） (2023-10-06T21:45:05Z)
M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。 M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。 M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文参考訳（メタデータ） (2023-05-31T02:34:36Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文参考訳（メタデータ） (2023-02-14T13:35:15Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
Adam in Private: Secure and Fast Training of Deep Neural Networks with Adaptive Moment Estimation [6.342794803074475]
本稿では,最先端の機械学習アルゴリズムを効率的に評価するフレームワークを提案する。これは、MLアルゴリズムを「MPCフレンドリ」な変種に置き換える以前のほとんどの作業とは対照的である。我々は、最先端のサードパーティシステムより優れたセキュアなトレーニングを得る。
論文参考訳（メタデータ） (2021-06-04T01:40:09Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。 MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文参考訳（メタデータ） (2020-11-24T18:59:39Z)
MUXConv: Information Multiplexing in Convolutional Neural Networks [25.284420772533572]
MUXConvは、ネットワーク内のチャンネルと空間情報を段階的に多重化することで、情報の流れを増大させるように設計されている。 ImageNetでは、MUXNetsと呼ばれる結果のモデルが、MobileNetV3のパフォーマンス(75.3%のトップ-1精度)と乗算演算(218M)に一致している。 MUXNetは、転送学習やオブジェクト検出に適応する際にもよく機能する。
論文参考訳（メタデータ） (2020-03-31T00:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。