論文の概要: Flash: A Hybrid Private Inference Protocol for Deep CNNs with High Accuracy and Low Latency on CPU
- arxiv url: http://arxiv.org/abs/2401.16732v1
- Date: Tue, 30 Jan 2024 04:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 12:17:56.126341
- Title: Flash: A Hybrid Private Inference Protocol for Deep CNNs with High Accuracy and Low Latency on CPU
- Title(参考訳): Flash: CPU上での高精度で低レイテンシのディープCNNのためのハイブリッドプライベート推論プロトコル
- Authors: Hyeri Roh, Jinsu Yeo, Yeongil Ko, Gu-Yeon Wei, David Brooks, Woo-Seok Choi,
- Abstract要約: Flashは、ホモモルフィック暗号化(HE)とセキュアな双方向計算(2PC)の両方を利用する最適化されたプライベート推論プロトコルである
Flashは16-45倍のレイテンシと84-196倍の通信コストで最先端の改善を実現している。
ImageNetでさえ、FlashはCPU上で1分未満のレイテンシを提供し、総通信量は1GB未満である。
- 参考スコア(独自算出の注目度): 4.623635643551409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Flash, an optimized private inference (PI) hybrid protocol utilizing both homomorphic encryption (HE) and secure two-party computation (2PC), which can reduce the end-to-end PI latency for deep CNN models less than 1 minute with CPU. To this end, first, Flash proposes a low-latency convolution algorithm built upon a fast slot rotation operation and a novel data encoding scheme, which results in 4-94x performance gain over the state-of-the-art. Second, to minimize the communication cost introduced by the standard nonlinear activation function ReLU, Flash replaces the entire ReLUs with the polynomial $x^2+x$ and trains deep CNN models with the new activation function. The trained models improve the inference accuracy for CIFAR-10/100 and TinyImageNet by 16% on average (up to 40% for ResNet-32) compared to prior art. Last, Flash proposes an efficient 2PC-based $x^2+x$ evaluation protocol that does not require any offline communication and that reduces the total communication cost to process the activation layer by 84-196x over the state-of-the-art. As a result, the end-to-end PI latency of Flash implemented on CPU is 0.02 minute for CIFAR-100 and 0.57 minute for TinyImageNet classification, while the total data communication is 0.07GB for CIFAR-100 and 0.22GB for TinyImageNet. Flash improves the state-of-the-art PI by 16-45x in latency and 84-196x in communication cost. Moreover, even for ImageNet, Flash can deliver the latency less than 1 minute on CPU with the total communication less than 1GB.
- Abstract(参考訳): 本稿では,Hymomorphic encryption (HE) とSecure Two-party Computing (2PC) を併用した,最適化されたプライベート推論(PI)ハイブリッドプロトコルであるFlashについて述べる。
この目的のために、Flashは高速スロットローテーション操作と新しいデータ符号化方式に基づく低遅延畳み込みアルゴリズムを提案し、その結果、最先端の4-94倍の性能向上を実現した。
第二に、標準的な非線形アクティベーション関数ReLUによって導入された通信コストを最小限に抑えるため、FlashはReLUを多項式$x^2+x$で置き換え、新しいアクティベーション関数で深部CNNモデルを訓練する。
トレーニングされたモデルは、CIFAR-10/100とTinyImageNetの推論精度を16%改善した(ResNet-32の40%まで)。
最後に、Flashは、オフライン通信を必要としない効率的な2PCベースの$x^2+x$評価プロトコルを提案し、それによってアクティベーション層を最先端の84-196倍に処理するための通信コストを削減した。
結果として、CPU上で実装されたFlashのエンドツーエンドPIレイテンシは、CIFAR-100では0.02分、TinyImageNetでは0.57分、CIFAR-100では0.07GB、TinyImageNetでは0.22GBである。
Flashは最先端のPIを16-45倍のレイテンシと84-196倍の通信コストで改善する。
さらに、ImageNetでさえ、FlashはCPU上で1分未満の遅延を1GB未満の通信で提供することができる。
関連論文リスト
- Taming Lookup Tables for Efficient Image Retouching [30.48643578900116]
我々は、畳み込みニューラルネットワーク(CNN)を使わずに、極めて効率的なエッジ推論にLUTを採用するICELUTを提案する。
ICELUTは最先端の性能と極めて低消費電力を実現している。
これにより、最初のLUTベースのイメージエンハンサーであるICELUTは、GPUでは0.4ms、CPUでは7msという前例のない速度に達し、CNNソリューションよりも少なくとも1桁高速になる。
論文 参考訳(メタデータ) (2024-03-28T08:49:35Z) - Efficient View Synthesis with Neural Radiance Distribution Field [61.22920276806721]
我々は,リアルタイムに効率的なビュー合成を目標とするニューラルレージアンス分布場(NeRDF)という新しい表現を提案する。
我々は、NeLFのように1ピクセル当たりの1つのネットワーク転送でレンダリング速度を保ちながら、NeRFに似た小さなネットワークを使用する。
実験の結果,提案手法は既存の手法よりも速度,品質,ネットワークサイズとのトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2023-08-22T02:23:28Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$
Regularized Latency Surrogates [20.31383698391339]
我々のアルゴリズムは多用途であり、プルーニング、低ランク因数分解、量子化など多くの一般的な圧縮手法で利用することができる。
高速で、シングルモデルトレーニングとほぼ同じ時間で実行される。
論文 参考訳(メタデータ) (2023-06-09T09:57:17Z) - Real-Time Neural Light Field on Mobile Devices [54.44982318758239]
低レイテンシで小さなサイズでモバイルデバイス上で効率的に動作する新しいネットワークアーキテクチャを導入する。
本モデルでは,合成シーンと実世界のシーンの両方において,リアルタイムな推論を維持しながら高分解能な生成を実現する。
論文 参考訳(メタデータ) (2022-12-15T18:58:56Z) - Efficient stereo matching on embedded GPUs with zero-means cross
correlation [8.446808526407738]
本稿では,Jetson Tx2組込みGPU上でのゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムの高速化手法を提案する。
本手法では,ZNCCの高速化のために,Zigzag方式で対象画像をスキャンし,隣接する画素に対して1ピクセルの計算を効率的に再利用する。
本システムでは,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。
論文 参考訳(メタデータ) (2022-12-01T13:03:38Z) - PyNet-V2 Mobile: Efficient On-Device Photo Processing With Neural
Networks [115.97113917000145]
エッジデバイス用に設計された新しいPyNET-V2 Mobile CNNアーキテクチャを提案する。
提案アーキテクチャでは,携帯電話から直接RAW 12MPの写真を1.5秒で処理することができる。
提案したアーキテクチャは,最新のモバイルAIアクセラレータとも互換性があることが示されている。
論文 参考訳(メタデータ) (2022-11-08T17:18:01Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Communication and Energy Efficient Slimmable Federated Learning via
Superposition Coding and Successive Decoding [55.58665303852148]
フェデレートラーニング(FL)は、生データの代わりにローカルにトレーニングされたモデルを交換することで、プライベートデータを利用する大きな可能性を持っている。
我々はSlimFLという新しいエネルギー・通信効率のFLフレームワークを提案する。
SlimFLは0.5$xモデルと1.0$xモデルの両方を適切な精度と収束速度で同時に訓練できることを示す。
論文 参考訳(メタデータ) (2021-12-05T13:35:26Z) - BEANNA: A Binary-Enabled Architecture for Neural Network Acceleration [0.0]
本稿では,浮動小数点層とバイナリネットワーク層の両方を処理可能なニューラルネットワークハードウェアアクセラレータを提案し,評価する。
BEANNAは100MHzのクロック速度で動作し、ピークスループットは52.8ギガOps/秒である。
論文 参考訳(メタデータ) (2021-08-04T23:17:34Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。