論文の概要: HF-NTT: Hazard-Free Dataflow Accelerator for Number Theoretic Transform
- arxiv url: http://arxiv.org/abs/2410.04805v1
- Date: Mon, 7 Oct 2024 07:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:47:52.543206
- Title: HF-NTT: Hazard-Free Dataflow Accelerator for Number Theoretic Transform
- Title(参考訳): HF-NTT:数理論変換のためのハザードフリーデータフロー加速器
- Authors: Xiangchen Meng, Zijun Jiang, Yangdi Lyu,
- Abstract要約: 多項式乗法は、完全同型暗号(FHE)など、多くのアプリケーションにおける基本的な演算の1つである。
Numberoretic Transform (NTT) は、適応可能な乗算を向上するための有効なツールであるが、NTT加速器を高速に生成する方法が欠如している。
本稿では,新しいNTTアクセラレータであるHF-NTTを導入し,ビット反転操作を不要とするデータ移動戦略を提案する。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Polynomial multiplication is one of the fundamental operations in many applications, such as fully homomorphic encryption (FHE). However, the computational inefficiency stemming from polynomials with many large-bit coefficients poses a significant challenge for the practical implementation of FHE. The Number Theoretic Transform (NTT) has proven an effective tool in enhancing polynomial multiplication, but a fast and adaptable method for generating NTT accelerators is lacking. In this paper, we introduce HF-NTT, a novel NTT accelerator. HF-NTT efficiently handles polynomials of varying degrees and moduli, allowing for a balance between performance and hardware resources by adjusting the number of Processing Elements (PEs). Meanwhile, we introduce a data movement strategy that eliminates the need for bit-reversal operations, resolves different hazards, and reduces the clock cycles. Furthermore, Our accelerator includes a hardware-friendly modular multiplication design and a configurable PE capable of adapting its data path, resulting in a universal architecture. We synthesized and implemented prototype using Vivado 2022.2, and evaluated it on the Xilinx Virtex-7 FPGA platform. The results demonstrate significant improvements in Area-Time-Product (ATP) and processing speed for different polynomial degrees. In scenarios involving multi-modulus polynomial multiplication, our prototype consistently outperforms other designs in both ATP and latency metrics.
- Abstract(参考訳): 多項式乗算は、完全同型暗号(FHE)など、多くのアプリケーションにおける基本的な演算の1つである。
しかし、多くの大きなビット係数を持つ多項式から生じる計算の非効率性は、FHEの実践的な実装に重大な課題をもたらす。
Number Theoretic Transform (NTT)は多項式乗算の強化に有効なツールであるが、NTT加速器を高速かつ適応的に生成する方法が欠如している。
本稿では,新しいNTTアクセラレータであるHF-NTTを紹介する。
HF-NTTは、様々な次数とモジュラーの多項式を効率的に処理し、処理要素数(PE)を調整することで、性能とハードウェアリソースのバランスをとることができる。
一方、ビット反転操作の必要性を排除し、異なるハザードを解消し、クロックサイクルを削減するデータ移動戦略を導入する。
さらに,我々のアクセラレータには,ハードウェアフレンドリなモジュラー乗算設計と,データパスを適応可能な構成可能なPEが含まれており,普遍的なアーキテクチャが実現されている。
我々は、Vivado 2022.2を用いてプロトタイプを合成、実装し、Xilinx Virtex-7 FPGAプラットフォーム上で評価した。
その結果, 面積時間生産(ATP)の大幅な改善と, 多項式次数に対する処理速度が向上した。
多重モジュラー多項式乗算を含むシナリオでは、ATPおよびレイテンシの指標において、我々のプロトタイプは、他の設計よりも一貫して優れています。
関連論文リスト
- Joint Transmit and Pinching Beamforming for PASS: Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - PolyLUT: Ultra-low Latency Polynomial Inference with Hardware-Aware Structured Pruning [8.791770352147989]
本稿では,CERNを基本構成ブロックとして,FPGAデプロイメントのためのDNNのトレーニング手法を提案する。
本手法はソフトロジックによって提供される柔軟性を活用し,LUT内の評価を最小限のオーバーヘッドで隠蔽する。
本稿では,ネットワーク侵入検出,大型ハドロン衝突型加速器におけるジェット識別,MNISTの3つの課題に対するPolyLUTの有効性を示す。
論文 参考訳(メタデータ) (2025-01-14T11:51:57Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - PolyLUT: Learning Piecewise Polynomials for Ultra-Low Latency FPGA
LUT-based Inference [3.1999570171901786]
ビルディングブロックを用いることで,線形関数よりもソフトロジックの層が少なく,同じ精度を実現できることを示す。
本手法の有効性を,ネットワーク侵入検出,CERN大型ハドロン衝突型加速器におけるジェット識別,MNISTデータセットを用いた手書き桁認識の3つのタスクで示す。
論文 参考訳(メタデータ) (2023-09-05T15:54:09Z) - TPU as Cryptographic Accelerator [13.44836928672667]
FHE(Fully Homomorphic Encryption)やZKP(Zero-Knowledge Proofs)のような暗号スキームは、計算の複雑さによってしばしば妨げられる。
本稿では,暗号乗算の高速化にTPU/NPUを活用する可能性について検討し,FHEおよびZKP方式の性能向上を図る。
論文 参考訳(メタデータ) (2023-07-13T04:38:32Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Batch Processing and Data Streaming Fourier-based Convolutional Neural
Network Accelerator [4.7257913147626995]
ナビゲーション、トラッキング、リアルタイムマシンアクションシステムなど、多数のアプリケーションにおいて、最小レイテンシの人工ニューラルネットワークによる決定が最重要である。
これにより、機械学習ハードウェアは、高いスループットで多次元データを処理する必要がある。
本稿では,Fourier Convolutional Neural Network(FCNN)アクセラレータを用いた,ニューマンベースではない機械学習アクセラレーションを実演する。
論文 参考訳(メタデータ) (2021-12-23T01:06:17Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - DiffPD: Differentiable Projective Dynamics with Contact [65.88720481593118]
DiffPDは、暗黙の時間積分を持つ効率的な微分可能なソフトボディシミュレータである。
我々はDiffPDの性能を評価し,様々な応用における標準ニュートン法と比較して4~19倍のスピードアップを観測した。
論文 参考訳(メタデータ) (2021-01-15T00:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。