論文の概要: CiFlow: Dataflow Analysis and Optimization of Key Switching for Homomorphic Encryption
- arxiv url: http://arxiv.org/abs/2311.01598v3
- Date: Fri, 12 Apr 2024 19:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:27:27.451781
- Title: CiFlow: Dataflow Analysis and Optimization of Key Switching for Homomorphic Encryption
- Title(参考訳): CiFlow: 同型暗号化のためのキースイッチングのデータフロー解析と最適化
- Authors: Negar Neda, Austin Ebel, Benedict Reynwar, Brandon Reagen,
- Abstract要約: ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にするプライバシー保護計算技術である。
HEは極めて遅いため、実際のアプリケーションでは使用できない。
本稿では,そのデータフローを厳密に解析することでHE性能を向上させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.704681057324485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Homomorphic encryption (HE) is a privacy-preserving computation technique that enables computation on encrypted data. Today, the potential of HE remains largely unrealized as it is impractically slow, preventing it from being used in real applications. A major computational bottleneck in HE is the key-switching operation, accounting for approximately 70% of the overall HE execution time and involving a large amount of data for inputs, intermediates, and keys. Prior research has focused on hardware accelerators to improve HE performance, typically featuring large on-chip SRAMs and high off-chip bandwidth to deal with large scale data. In this paper, we present a novel approach to improve key-switching performance by rigorously analyzing its dataflow. Our primary goal is to optimize data reuse with limited on-chip memory to minimize off-chip data movement. We introduce three distinct dataflows: Max-Parallel (MP), Digit-Centric (DC), and Output-Centric (OC), each with unique scheduling approaches for key-switching computations. Through our analysis, we show how our proposed Output-Centric technique can effectively reuse data by significantly lowering the intermediate key-switching working set and alleviating the need for massive off-chip bandwidth. We thoroughly evaluate the three dataflows using the RPU, a recently published vector processor tailored for ring processing algorithms, which includes HE. This evaluation considers sweeps of bandwidth and computational throughput, and whether keys are buffered on-chip or streamed. With OC, we demonstrate up to 4.16x speedup over the MP dataflow and show how OC can save 12.25x on-chip SRAM by streaming keys for minimal performance penalty.
- Abstract(参考訳): ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にするプライバシー保護計算技術である。
現在、HEのポテンシャルは非現実的であり、不可分に遅いため、実際のアプリケーションでの使用を妨げている。
HEの主な計算ボトルネックはキースイッチ操作であり、HEの実行時間の約70%を占め、入力、中間、キーに対する大量のデータを含む。
従来の研究では、HE性能を改善するハードウェアアクセラレータに重点を置いており、大容量のオンチップSRAMと大規模なデータを扱うためのオフチップ帯域幅が特徴である。
本稿では,そのデータフローを厳密に解析することでキースイッチング性能を向上させる新しい手法を提案する。
第一の目的は、オンチップメモリに制限のあるデータ再利用を最適化し、オフチップのデータ移動を最小限にすることです。
最大パラメータ(MP)、Digital-Centric(DC)、Output-Centric(OC)の3つの異なるデータフローを導入する。
本稿では,提案手法を用いて,中間鍵スイッチング作業セットを大幅に削減し,オフチップ帯域幅の大幅な削減を図り,データ再利用を効果的に行なえることを示す。
HEを含むリング処理アルゴリズムに適したベクトルプロセッサであるRPUを用いて,3つのデータフローを徹底的に評価した。
この評価は、帯域幅と計算スループットの網羅性、キーがチップ上でバッファリングされているか、あるいはストリーミングされているかを考慮する。
OCでは、MPデータフロー上で最大4.16倍のスピードアップを示し、OCが12.25倍のSRAMをストリーミングキーで保存し、パフォーマンス上のペナルティを最小限に抑える方法を示している。
関連論文リスト
- Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - FHEmem: A Processing In-Memory Accelerator for Fully Homomorphic Encryption [9.884698447131374]
ホモモルフィック暗号化(英: Homomorphic Encryption、FHE)は、暗号化データ上で任意の計算を復号化せずに実行できる技術である。
FHEは、暗号化後のデータサイズの増加により、普通のデータの計算よりも大幅に遅い。
PIMベースのFHEアクセラレータFHEmemを提案する。
論文 参考訳(メタデータ) (2023-11-27T20:11:38Z) - Streaming Kernel PCA Algorithm With Small Space [24.003544967343615]
近年,大規模なデータセットを効率的に処理できるため,ストリーミングPCAが注目されている。
我々はOjaの従来のスキームに基づくKernel問題に対するストリーミングアルゴリズムを提案する。
提案アルゴリズムは,PCAのメモリ使用量を削減するとともに,その精度を維持するという課題に対処する。
論文 参考訳(メタデータ) (2023-03-08T13:13:33Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。