論文の概要: EQO: Exploring Ultra-Efficient Private Inference with Winograd-Based Protocol and Quantization Co-Optimization
- arxiv url: http://arxiv.org/abs/2404.09404v1
- Date: Mon, 15 Apr 2024 01:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:09:06.889022
- Title: EQO: Exploring Ultra-Efficient Private Inference with Winograd-Based Protocol and Quantization Co-Optimization
- Title(参考訳): EQO:Winogradベースのプロトコルと量子化共最適化による超効率的なプライベート推論の探索
- Authors: Wenxuan Zeng, Tianshi Xu, Meng Li, Runsheng Wang,
- Abstract要約: セキュアな双方向計算(2PC)に基づくプライベート畳み込みニューラルネットワーク(CNN)の推論は、高い通信と遅延オーバーヘッドに悩まされる。
本稿では,CNNと2PCプロトコルを協調的に最適化する量子化2PC推論フレームワークであるEQOを提案する。
広範な実験により、EQOは1.7x、3.6x、6.3xの通信削減を1.29%、1.16%、1.29%の精度で実証した。
- 参考スコア(独自算出の注目度): 3.1330492824737055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Private convolutional neural network (CNN) inference based on secure two-party computation (2PC) suffers from high communication and latency overhead, especially from convolution layers. In this paper, we propose EQO, a quantized 2PC inference framework that jointly optimizes the CNNs and 2PC protocols. EQO features a novel 2PC protocol that combines Winograd transformation with quantization for efficient convolution computation. However, we observe naively combining quantization and Winograd convolution is sub-optimal: Winograd transformations introduce extensive local additions and weight outliers that increase the quantization bit widths and require frequent bit width conversions with non-negligible communication overhead. Therefore, at the protocol level, we propose a series of optimizations for the 2PC inference graph to minimize the communication. At the network level, We develop a sensitivity-based mixed-precision quantization algorithm to optimize network accuracy given communication constraints. We further propose a 2PC-friendly bit re-weighting algorithm to accommodate weight outliers without increasing bit widths. With extensive experiments, EQO demonstrates 11.7x, 3.6x, and 6.3x communication reduction with 1.29%, 1.16%, and 1.29% higher accuracy compared to state-of-the-art frameworks SiRNN, COINN, and CoPriv, respectively.
- Abstract(参考訳): セキュアな2次元計算(2PC)に基づくプライベート畳み込みニューラルネットワーク(CNN)の推論は、特に畳み込み層による高い通信と遅延オーバーヘッドに悩まされる。
本稿では,CNNと2PCプロトコルを協調的に最適化する量子化2PC推論フレームワークであるEQOを提案する。
EQOは、Winograd変換と量子化を組み合わせて効率的な畳み込み計算を行う新しい2PCプロトコルを備えている。
しかし、量子化とウィノグラードの畳み込みは準最適である: ウィノグラード変換は、量子化ビット幅を増大させ、非無視的な通信オーバーヘッドを伴う頻繁なビット幅変換を必要とする広範囲な局所的な加算と重み付きアウトリーを導入する。
そこで,プロトコルレベルでは,通信の最小化を目的とした2PC推論グラフの一連の最適化を提案する。
ネットワークレベルでは、通信制約が与えられた場合のネットワーク精度を最適化するために、感度に基づく混合精度量子化アルゴリズムを開発する。
さらに、ビット幅を増大させることなく、ウェイトアウトレーヤに対応する2PCフレンドリーなビット再重み付けアルゴリズムを提案する。
大規模な実験により、EQOは1.7x、3.6x、6.3xの通信削減を1.29%、1.16%、1.29%の精度で実証した。
関連論文リスト
- ECDQC: Efficient Compilation for Distributed Quantum Computing with Linear Layout [6.382954852270525]
本稿では,LNNアーキテクチャを用いた分散量子コンピューティング(DQC)の効率的なコンパイル手法を提案する。
提案手法は, コンパイル時間, ゲート数, 回路深さを著しく低減し, 大規模量子計算の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-10-31T12:07:46Z) - PrivQuant: Communication-Efficient Private Inference with Quantized Network/Protocol Co-Optimization [2.9203160719029073]
既存のセキュアな2PCフレームワークは、巨大な通信のために高い推論遅延に悩まされる。
2PCベースの量子化推論プロトコルとネットワーク量子化アルゴリズムを協調的に最適化するフレームワークであるPrivQuantを提案する。
PrivQuantは通信を11時間短縮し、2.5times Mathrmと2.8times$が8.7タイム、1.8times Mathrmと2.4times$遅延をSiRNN、COINN、CoPrivと比較した。
論文 参考訳(メタデータ) (2024-10-12T13:28:42Z) - HEQuant: Marrying Homomorphic Encryption and Quantization for
Communication-Efficient Private Inference [2.498379184732383]
HEベースのプロトコルに対して,低精度量子化を意識した最適化を実現するHEQuantを提案する。
CrypTFlow2、Cheetah、Ironなど、従来のHEベースのプロトコルと比較して、HEQuantは3.5sim 23.4times$通信削減を実現している。
論文 参考訳(メタデータ) (2024-01-29T08:59:05Z) - CoPriv: Network/Protocol Co-Optimization for Communication-Efficient Private Inference [13.039573608167077]
セキュアな2つのパーティ(2PC)に基づくディープニューラルネットワーク(DNN)推論は、暗号的にセキュアなプライバシ保護を提供する。
これまでの作業は、通信オーバーヘッドを近似するために、ReLUカウントのプロキシメトリックに大きく依存していました。
2PC推論プロトコルとDNNアーキテクチャを協調的に最適化するフレームワークであるCoPrivを提案する。
論文 参考訳(メタデータ) (2023-11-03T06:19:48Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。