論文の概要: GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption
- arxiv url: http://arxiv.org/abs/2309.11001v1
- Date: Wed, 20 Sep 2023 01:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-19 04:20:31.620430
- Title: GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption
- Title(参考訳): GME: 均一暗号化を高速化するGPUベースのマイクロアーキテクチャ拡張
- Authors: Kaustubh Shivdikar, Yuhui Bao, Rashmi Agrawal, Michael Shen, Gilbert Jonatan, Evelio Mora, Alexander Ingare, Neal Livesay, José L. Abellán, John Kim, Ajay Joshi, David Kaeli,
- Abstract要約: ホモモルフィック暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、平文データを使った同じ計算と比較して最大5桁のスローダウンを導入している。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
- 参考スコア(独自算出の注目度): 33.87964584665433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully Homomorphic Encryption (FHE) enables the processing of encrypted data without decrypting it. FHE has garnered significant attention over the past decade as it supports secure outsourcing of data processing to remote cloud services. Despite its promise of strong data privacy and security guarantees, FHE introduces a slowdown of up to five orders of magnitude as compared to the same computation using plaintext data. This overhead is presently a major barrier to the commercial adoption of FHE. In this work, we leverage GPUs to accelerate FHE, capitalizing on a well-established GPU ecosystem available in the cloud. We propose GME, which combines three key microarchitectural extensions along with a compile-time optimization to the current AMD CDNA GPU architecture. First, GME integrates a lightweight on-chip compute unit (CU)-side hierarchical interconnect to retain ciphertext in cache across FHE kernels, thus eliminating redundant memory transactions. Second, to tackle compute bottlenecks, GME introduces special MOD-units that provide native custom hardware support for modular reduction operations, one of the most commonly executed sets of operations in FHE. Third, by integrating the MOD-unit with our novel pipelined $64$-bit integer arithmetic cores (WMAC-units), GME further accelerates FHE workloads by $19\%$. Finally, we propose a Locality-Aware Block Scheduler (LABS) that exploits the temporal locality available in FHE primitive blocks. Incorporating these microarchitectural features and compiler optimizations, we create a synergistic approach achieving average speedups of $796\times$, $14.2\times$, and $2.3\times$ over Intel Xeon CPU, NVIDIA V100 GPU, and Xilinx FPGA implementations, respectively.
- Abstract(参考訳): 完全同型暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、リモートクラウドサービスへのセキュアなデータ処理のアウトソーシングをサポートするため、過去10年間、大きな注目を集めてきた。
強力なデータプライバシとセキュリティ保証が約束されているにもかかわらず、FHEは、平文データを使用した同じ計算と比較して、最大5桁のスローダウンを導入している。
このオーバーヘッドは、現在、FHEの商業的採用にとって大きな障壁となっている。
この作業では、FHEを加速するためにGPUを活用し、クラウドで利用可能な確立されたGPUエコシステムを活用しています。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
第一に、GMEは軽量のオンチップ計算ユニット(CU)側の階層的相互接続を統合し、FHEカーネル間のキャッシュにおける暗号文を保持することにより、冗長なメモリトランザクションを排除している。
第2に、計算ボトルネックに対処するため、GMEは、FHEで最も一般的に実行される操作セットの1つであるモジュラーリダクション操作に対して、ネイティブなカスタムハードウェアサポートを提供する特別なMODユニットを導入した。
第3に、MODユニットと6,4$ビットの整数演算コア(WMACユニット)を統合することで、GMEはさらにFHEワークロードを19.%の速さで加速します。
最後に、FHEプリミティブブロックで利用できる時間的局所性を利用するLocality-Aware Block Scheduler (LABS)を提案する。
これらのマイクロアーキテクチャ機能とコンパイラ最適化を組み込んで、平均スピードアップを796\times$、14.2\times$、2.3\times$ over Intel Xeon CPU、NVIDIA V100 GPU、Xilinx FPGA実装で達成する。
関連論文リスト
- FHECore: Rethinking GPU Microarchitecture for Fully Homomorphic Encryption [2.7777199166440827]
FHE(Fully Homomorphic Encryption)は、暗号化されたデータを直接計算できるが、膨大な計算とメモリオーバーヘッドを発生させる。
カスタムアクセラレーターはこれらのコストを軽減することができるが、市場投入までの長い時間とFHEアルゴリズムの急速な進化は、長期的な妥当性を脅かす。
本稿では,GPUのストリームマルチプロセッサに直接統合された特殊な機能ユニットであるFHECoreを提案する。
論文 参考訳(メタデータ) (2026-02-10T02:55:10Z) - Space Filling Curves is All You Need: Communication-Avoiding Matrix Multiplication Made Simple [42.09057806159106]
一般行列乗算はディープラーニングとHPCワークロードの基盤である。
行列乗算アクセラレータを持つ現代のプラットフォームは高いFLOP/Byteマシンバランスを示す。
この作業では、この面倒なチューニングの問題を緩和するために、空間充填曲線 (SFC) を再検討する。
我々は,データ局所性を本質的に高次に示す,プラットフォーム指向および形状指向の行列乗算スキームを得る。
論文 参考訳(メタデータ) (2026-01-22T19:56:16Z) - Theodosian: A Deep Dive into Memory-Hierarchy-Centric FHE Acceleration [3.8153115302044296]
完全同型暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にし、クラウドおよびエッジ環境におけるプライバシー上の懸念を軽減する。
本稿では,最新のGPU上で一般的なFHE方式であるCKKSのマイクロアーキテクチャ解析を行う。
高帯域幅のL2キャッシュであっても、支配的なカーネルはメモリ帯域幅で束縛され、永続的なメモリ壁が露出することを示す。
これらの知見に触発されて,キャッシュ効率の向上とオーバーヘッド削減を目的とした,相補的でメモリ対応の最適化セットであるTheodosianを紹介した。
論文 参考訳(メタデータ) (2025-12-20T12:18:29Z) - ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels [40.94392896555992]
既存のシステムは、計算通信の重複によってこれを緩和するが、しばしばワークロードと新しいアクセラレータ間の理論的帯域幅を満たさない。
演算子固有のテクニックの代わりに、簡単な再利用可能な原則の小さなセットが、ワークロードの最適なパフォーマンスを導くことができるかどうかを問う。
PKKittens(PK)カーネルは、最大2.33倍の並列ワークロードを実現する。
論文 参考訳(メタデータ) (2025-11-17T21:48:33Z) - CryptOracle: A Modular Framework to Characterize Fully Homomorphic Encryption [3.5348336893819554]
本稿では,FHE のオープンソースライブラリ OpenFHE の詳細な特徴について述べる。
我々は,(1)ベンチマークスイート,(2)ハードウェアプロファイラ,(3)予測性能モデルからなるモジュラー評価フレームワークであるCryptOracleを紹介する。
論文 参考訳(メタデータ) (2025-10-03T23:30:29Z) - CAT: A GPU-Accelerated FHE Framework with Its Application to High-Precision Private Dataset Query [0.51795041186793]
本稿では,オープンソースGPUアクセラレーションによる完全同型暗号(FHE)フレームワークCATを紹介する。
emphCATは、コア数学の基礎、事前計算された要素と複合操作のブリッジ、FHE演算子のAPIアクセス可能なレイヤという3層アーキテクチャを備えている。
本フレームワークでは,CKKS,BFV,BGVの3種類のFHEスキームを実装した。
論文 参考訳(メタデータ) (2025-03-28T08:20:18Z) - gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。
ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。
本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文 参考訳(メタデータ) (2024-12-22T01:50:50Z) - Chameleon: An Efficient FHE Scheme Switching Acceleration on GPUs [17.536473118470774]
ホモモルフィック暗号化(英語版) (FHE) は暗号化されたデータの直接計算を可能にする。
既存の取り組みは主に、データ型と関数の多様な要求を満たすことができない単一クラスFHEスキームに重点を置いている。
本稿では,Chameleon という高速GPUベース FHE スイッチングアクセラレーション方式を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:37:49Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Cheddar: A Swift Fully Homomorphic Encryption Library for CUDA GPUs [2.613335121517245]
FHE(Fully homomorphic encryption)は、クラウドコンピューティングにおけるセキュリティとプライバシの問題を解決するための暗号化技術である。
FHEは、暗号化されたデータを処理するための膨大な計算オーバーヘッドを導入し、FHEワークロードは暗号化されていないワークロードよりも2~6桁遅くなりました。
本稿では,GPUのFHEライブラリであるCheddarを提案する。
論文 参考訳(メタデータ) (2024-07-17T23:49:18Z) - MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。
これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。
我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-07T14:49:22Z) - NTTSuite: Number Theoretic Transform Benchmarks for Accelerating Encrypted Computation [2.704681057324485]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号化されたデータを直接計算できる暗号システムである。
HEは、非常に高い計算オーバーヘッドのため、ほとんど採用されていない。
我々はNTTSuiteというベンチマークスイートを開発し、研究者がこれらのオーバーヘッドに対処できるようにした。
我々の実装は最先端の技術を30%上回っている。
論文 参考訳(メタデータ) (2024-05-18T17:44:17Z) - FHEmem: A Processing In-Memory Accelerator for Fully Homomorphic Encryption [9.884698447131374]
ホモモルフィック暗号化(英: Homomorphic Encryption、FHE)は、暗号化データ上で任意の計算を復号化せずに実行できる技術である。
FHEは、暗号化後のデータサイズの増加により、普通のデータの計算よりも大幅に遅い。
PIMベースのFHEアクセラレータFHEmemを提案する。
論文 参考訳(メタデータ) (2023-11-27T20:11:38Z) - Toward Practical Privacy-Preserving Convolutional Neural Networks Exploiting Fully Homomorphic Encryption [11.706881389387242]
準同型暗号化(FHE)は、プライベート推論(PI)を実現するための実行可能なアプローチである
FHEのCNNの実装は、主に計算とメモリのオーバーヘッドが大きいため、大きなハードルに直面している。
本稿では、GPU/ASICアクセラレーション、効率的なアクティベーション機能、最適化されたパッキングスキームを含む最適化セットを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:24:35Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。