論文の概要: FLASH-FHE: A Heterogeneous Architecture for Fully Homomorphic Encryption Acceleration
- arxiv url: http://arxiv.org/abs/2501.18371v1
- Date: Thu, 30 Jan 2025 14:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:28.803783
- Title: FLASH-FHE: A Heterogeneous Architecture for Fully Homomorphic Encryption Acceleration
- Title(参考訳): FLASH-FHE: 完全同型暗号化高速化のための不均一アーキテクチャ
- Authors: Junxue Zhang, Xiaodian Cheng, Gang Cao, Meng Dai, Yijun Sun, Han Tian, Dian Shen, Yong Wang, Kai Chen,
- Abstract要約: FLASH-FHEは、混合ワークロードのための異種アーキテクチャを備えた最初のFHEアクセラレータである。
FLASH-FHEはその中心に、2種類の計算クラスタを設計している。
これらの2種類のクラスタは、チップ上の貴重なメモリを共有でき、重要なリソース消費を伴わずに性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 12.471629821506207
- License:
- Abstract: While many hardware accelerators have recently been proposed to address the inefficiency problem of fully homomorphic encryption (FHE) schemes, none of them is able to deliver optimal performance when facing real-world FHE workloads consisting of a mixture of shallow and deep computations, due primarily to their homogeneous design principle. This paper presents FLASH-FHE, the first FHE accelerator with a heterogeneous architecture for mixed workloads. At its heart, FLASH-FHE designs two types of computation clusters, ie, bootstrappable and swift, to optimize for deep and shallow workloads respectively in terms of cryptographic parameters and hardware pipelines. We organize one bootstrappable and two swift clusters into one cluster affiliation, and present a scheduling scheme that provides sufficient acceleration for deep FHE workloads by utilizing all the affiliations, while improving parallelism for shallow FHE workloads by assigning one shallow workload per affiliation and dynamically decomposing the bootstrappable cluster into multiple swift pipelines to accelerate the assigned workload. We further show that these two types of clusters can share valuable on-chip memory, improving performance without significant resource consumption. We implement FLASH-FHE with RTL and synthesize it using both 7nm and 14/12nm technology nodes, and our experiment results demonstrate that FLASH-FHE achieves an average performance improvement of $1.4\times$ and $11.2\times$ compared to state-of-the-art FHE accelerators CraterLake and F1 for deep workloads, while delivering up to $8.0\times$ speedup for shallow workloads due to its heterogeneous architecture.
- Abstract(参考訳): 完全同相暗号(FHE)スキームの非効率性問題に対処するために、多くのハードウェアアクセラレータが最近提案されているが、そのどれも、浅層と深層を混合した実世界のFHEワークロードに対して、その設計原理が主であるため、最適な性能を提供することはできない。
本稿では、混合ワークロードのための異種アーキテクチャを持つ最初のFHEアクセラレータであるFLASH-FHEについて述べる。
FLASH-FHEは、暗号化パラメータとハードウェアパイプラインの2種類の計算クラスタを設計し、それぞれ深層および浅いワークロードを最適化する。
我々は,1つのブートストラップ可能なクラスタと2つのスイフトクラスタを1つのクラスタアフィリエイトに編成し,すべてのアフィリエイトを活用することで,深いFHEワークロードに対して十分なアクセラレーションを提供するスケジューリングスキームを提案し,また,浅層FHEワークロードの並列性を改善して,アフィリエレーション毎に1つの浅いワークロードを割り当て,ブートストラップ可能なクラスタを複数のスイフトパイプラインに動的に分解して,割り当てされたワークロードを高速化する。
さらに、これらの2種類のクラスタは、貴重なオンチップメモリを共有でき、重要なリソース消費を伴わずに性能を向上できることを示す。
我々は、FLASH-FHEをRTLで実装し、7nmと14/12nmの技術ノードを用いて合成し、実験結果、FLASH-FHEは、最先端のFHEアクセラレータであるCraterLakeとF1と比較して平均1.4\times$と11.2\times$のパフォーマンス向上を実現し、また、そのヘテロジニアスアーキテクチャにより、浅いワークロードに対して最大8.0\times$のスピードアップを実現している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - LoAS: Fully Temporal-Parallel Dataflow for Dual-Sparse Spiking Neural Networks [14.844751188874652]
スパイキングニューラルネットワーク(SNN)は、リソースに制約のあるエッジデバイスを駆動する可能性から、過去10年間で大きな研究注目を集めている。
既存のSNNアクセラレーターはスパーススパイクを高密度で処理するが、スパースウェイトを持つSNNでは機会を探索することができない。
二重スパースSNNの加速について検討し、そのコア演算、スパース行列-スパース-マトリクス乗算(spMspM)に着目した。
論文 参考訳(メタデータ) (2024-07-19T07:02:26Z) - FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction [3.6640504352010885]
本稿では,スパーステンソル収縮のためのフレキシブルでモジュラーな加速器であるFLAASHを紹介する。
我々のアーキテクチャは、スパースドット製品(またはその一部)を多数のスパースドット製品エンジンに分散することにより、スパーステンソル収縮を行う。
提案手法の有効性は,様々な評価によって示され,空間性や順序の増大とともに顕著なスピードアップが示される。
論文 参考訳(メタデータ) (2024-04-25T03:46:53Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - HAFLO: GPU-Based Acceleration for Federated Logistic Regression [5.866156163019742]
本稿では,フェデレートラーニング(FLR)の性能向上を目的としたGPUベースのHAFLOを提案する。
HAFLOの中核となる考え方は、FLRが使用する性能クリティカルなホモモルフィック演算子の集合をまとめ、ストレージ、IO、計算の最適化を通じてこれらの演算子の実行を高速化することである。
FLフレームワークであるFATEの高速化は、異種LRでは49.9$times$、同種LRでは88.4$times$を達成している。
論文 参考訳(メタデータ) (2021-07-29T07:46:49Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。