論文の概要: Trinity: A General Purpose FHE Accelerator
- arxiv url: http://arxiv.org/abs/2410.13405v1
- Date: Thu, 17 Oct 2024 10:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:43.966799
- Title: Trinity: A General Purpose FHE Accelerator
- Title(参考訳): Trinity: 汎用FHE加速器
- Authors: Xianglong Deng, Shengyu Fan, Zhicheng Hu, Zhuoyu Tian, Zihao Yang, Jiangrui Yu, Dingyuan Cao, Dan Meng, Rui Hou, Meng Li, Qian Lou, Mingzhe Zhang,
- Abstract要約: 我々は、CKKS、TFHE、およびそれらの変換スキームを1つのアクセラレータ内で効率的にサポートする統一アーキテクチャに基づく、最初のマルチモーダルFHEアクセラレータを提案する。
本稿では,アルゴリズム最適化,ハードウェアコンポーネントの再利用,動的ワークロードスケジューリングを取り入れた新しいFHEアクセラレータTrinityを提案する。
- 参考スコア(独自算出の注目度): 17.213234642867537
- License:
- Abstract: In this paper, we present the first multi-modal FHE accelerator based on a unified architecture, which efficiently supports CKKS, TFHE, and their conversion scheme within a single accelerator. To achieve this goal, we first analyze the theoretical foundations of the aforementioned schemes and highlight their composition from a finite number of arithmetic kernels. Then, we investigate the challenges for efficiently supporting these kernels within a unified architecture, which include 1) concurrent support for NTT and FFT, 2) maintaining high hardware utilization across various polynomial lengths, and 3) ensuring consistent performance across diverse arithmetic kernels. To tackle these challenges, we propose a novel FHE accelerator named Trinity, which incorporates algorithm optimizations, hardware component reuse, and dynamic workload scheduling to enhance the acceleration of CKKS, TFHE, and their conversion scheme. By adaptive select the proper allocation of components for NTT and MAC, Trinity maintains high utilization across NTTs with various polynomial lengths and imbalanced arithmetic workloads. The experiment results show that, for the pure CKKS and TFHE workloads, the performance of our Trinity outperforms the state-of-the-art accelerator for CKKS (SHARP) and TFHE (Morphling) by 1.49x and 4.23x, respectively. Moreover, Trinity achieves 919.3x performance improvement for the FHE-conversion scheme over the CPU-based implementation. Notably, despite the performance improvement, the hardware overhead of Trinity is only 85% of the summed circuit areas of SHARP and Morphling.
- Abstract(参考訳): 本稿では、CKKS、TFHE、およびそれらの変換スキームを1つのアクセラレータ内で効率的にサポートする統一アーキテクチャに基づく、最初のマルチモーダルFHEアクセラレータを提案する。
この目的を達成するために、まず上記のスキームの理論的基礎を分析し、有限個の算術カーネルからそれらの構成をハイライトする。
次に,これらのカーネルを統一アーキテクチャ内で効率的にサポートする上での課題について検討する。
1)NTTとFFTの同時サポート
2 各種多項式長にわたって高いハードウェア利用率を維持すること、及び
3) 多様な演算カーネル間で一貫したパフォーマンスを確保する。
これらの課題に対処するために,アルゴリズム最適化,ハードウェアコンポーネント再利用,動的ワークロードスケジューリングを取り入れ,CKKS,TFHE,およびそれらの変換スキームの高速化を図る新しいFHEアクセラレータTrinityを提案する。
NTT と MAC のコンポーネントの適切な割り当てを適応的に選択することで、Trinity は様々な多項式長と不均衡な演算処理を持つNTT 全体で高い利用率を維持している。
その結果,純粋な CKKS と TFHE ワークロードでは,Trinity のパフォーマンスが CKKS (SHARP) と TFHE (Morphling) の最先端アクセラレータをそれぞれ 1.49x と 4.23x で上回ることがわかった。
さらに、TrinityはCPUベースの実装よりもFHE変換方式で919.3倍の性能向上を実現している。
特に、性能改善にもかかわらず、トリニティのハードウェアオーバーヘッドはSHARPとMorphlingの合計回路面積の85%に過ぎなかった。
関連論文リスト
- Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - KiD: A Hardware Design Framework Targeting Unified NTT Multiplication for CRYSTALS-Kyber and CRYSTALS-Dilithium on FPGA [1.134327592583549]
大規模なスタンドアロン乗算は、CRYSTALS-KyberやDilithiumのような、量子後安全な格子ベースの暗号アルゴリズムの不可欠な構成要素である。
本稿では,CRYSTALS-KyberとDilithiumの両方の乗算をサポート可能な,統一的で共有されたNTTアーキテクチャの開発を目指している。
論文 参考訳(メタデータ) (2023-11-08T10:26:13Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - Hardware Acceleration of Explainable Artificial Intelligence [5.076419064097733]
我々は,既存のハードウェアアクセラレーターを用いて,様々なXAIアルゴリズムを高速化する,シンプルかつ効率的なフレームワークを提案する。
提案手法はリアルタイムな結果解釈につながる可能性がある。
論文 参考訳(メタデータ) (2023-05-04T19:07:29Z) - Over-the-Air Federated Multi-Task Learning via Model Sparsification and
Turbo Compressed Sensing [48.19771515107681]
本稿では,エッジサーバの協調の下で,エッジデバイス上にデプロイされた複数の学習タスクを非直交型フェードチャネルで共有する,オーバー・ザ・エアのFMTLフレームワークを提案する。
OA-FMTLでは、エッジデバイスの局所的な更新はスパース化され、圧縮され、重ね合わせの方法でアップリンクチャネルに送信される。
提案するOA-FMTLフレームワークとM-Turbo-CSアルゴリズムの性能解析を行った。
論文 参考訳(メタデータ) (2022-05-08T08:03:52Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。