論文の概要: Evaluating Homomorphic Operations on a Real-World Processing-In-Memory System
- arxiv url: http://arxiv.org/abs/2309.06545v2
- Date: Tue, 3 Oct 2023 14:17:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 06:43:22.338019
- Title: Evaluating Homomorphic Operations on a Real-World Processing-In-Memory System
- Title(参考訳): 実世界の処理-インメモリシステムにおける同型動作の評価
- Authors: Harshita Gupta, Mayank Kabra, Juan Gómez-Luna, Konstantinos Kanellopoulos, Onur Mutlu,
- Abstract要約: ホモモルフィック暗号化は データのセキュリティとプライバシーのリスクを減らす 有望なアプローチだ
我々は、PIM(Processing-in-Memory)パラダイムを使用して、大規模なメモリ容量と頻繁なデータ移動要求を軽減する。
- 参考スコア(独自算出の注目度): 7.46176168736093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computing on encrypted data is a promising approach to reduce data security and privacy risks, with homomorphic encryption serving as a facilitator in achieving this goal. In this work, we accelerate homomorphic operations using the Processing-in- Memory (PIM) paradigm to mitigate the large memory capacity and frequent data movement requirements. Using a real-world PIM system, we accelerate the Brakerski-Fan-Vercauteren (BFV) scheme for homomorphic addition and multiplication. We evaluate the PIM implementations of these homomorphic operations with statistical workloads (arithmetic mean, variance, linear regression) and compare to CPU and GPU implementations. Our results demonstrate 50-100x speedup with a real PIM system (UPMEM) over the CPU and 2-15x over the GPU in vector addition. For vector multiplication, the real PIM system outperforms the CPU by 40-50x. However, it lags 10-15x behind the GPU due to the lack of native sufficiently wide multiplication support in the evaluated first-generation real PIM system. For mean, variance, and linear regression, the real PIM system performance improvements vary between 30x and 300x over the CPU and between 10x and 30x over the GPU, uncovering real PIM system trade-offs in terms of scalability of homomorphic operations for varying amounts of data. We plan to make our implementation open-source in the future.
- Abstract(参考訳): 暗号化されたデータのコンピューティングは、データセキュリティとプライバシリスクを低減するための有望なアプローチであり、同型暗号化がこの目標を達成するファシリテータとして機能する。
本研究では、PIM(Processing-in-Memory)パラダイムを用いて、メモリ容量と頻繁なデータ移動要求を緩和するホモモルフィック操作を高速化する。
実世界のPIMシステムを用いて、同型加法および乗法のためのBrakerski-Fan-Vercauteren (BFV) スキームを高速化する。
統計的ワークロード(パラメータ平均、分散、線形回帰)によるこれらの同型演算のPIM実装を評価し、CPUおよびGPU実装と比較する。
実PIMシステム(UPMEM)をCPU上で50~100倍,ベクトル加算時にGPU上で2~15倍の高速化を示した。
ベクトル乗算では、実際のPIMシステムはCPUを40-50倍の性能で上回る。
しかし、評価された第1世代の実PIMシステムでは、ネイティブな広範な乗算サポートが不足しているため、GPUの10~15倍遅れている。
例えば、分散と線形回帰により、実際のPIMシステムの性能改善はCPU上で30倍から300倍、GPU上では10倍から30倍の間で変化し、様々な量のデータに対して同型演算のスケーラビリティの観点から実際のPIMシステムトレードオフを明らかにする。
将来、実装をオープンソースにする予定です。
関連論文リスト
- Analysis of Distributed Optimization Algorithms on a Real Processing-In-Memory System [21.09681871279162]
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
我々のゴールは、現実世界のPIMアーキテクチャ上で人気のある分散最適化アルゴリズムの機能と特性を理解することである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant
Spatiotemporal Tokens [62.65545751117208]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。
従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。
現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文 参考訳(メタデータ) (2021-06-18T17:04:57Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。