論文の概要: @NTT: Algorithm-Targeted NTT hardware acceleration via Design-Time Constant Optimization
- arxiv url: http://arxiv.org/abs/2601.17806v1
- Date: Sun, 25 Jan 2026 11:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.400966
- Title: @NTT: Algorithm-Targeted NTT hardware acceleration via Design-Time Constant Optimization
- Title(参考訳): @NTT:設計時定数最適化によるアルゴリズムターゲットNTTハードウェアアクセラレーション
- Authors: Mohammed Nabeel, Mahmoud Hafez, Michail Maniatakos,
- Abstract要約: @NTTは、これらのアルゴリズムのリングパラメータが固定されているという事実を利用して、設計時の定数最適化を可能にする。
TSMC 28nmライブラリを用いて実装したDilithium NTTのケーススタディでは、クロック周波数1.0GHzで動作する。
FPGAでは、最先端の実装よりも5.2倍高いスループットのLUTを実現している。
- 参考スコア(独自算出の注目度): 4.080796345570048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Number Theoretic Transform (NTT) is a critical computational bottleneck in many lattice-based postquantum cryptographic (PQC) algorithms. By leveraging the Fast Fourier Transform (FFT) algorithm, the NTT of a polynomial of degree N - 1 can be computed with a time complexity of O(N log N). Hardware implementation of NTT is generally preferred over software ones, as the latter are significantly slower due to complex memory access patterns and modular arithmetic operations. Achieving maximum throughput in hardware, however, typically demands a prohibitively large number of butterfly unit instantiations. In this work, we propose @NTT, which exploits the fact that the ring parameters in these algorithms are fixed, enabling design-time constant optimization and achieving the maximum throughput of N-point NTT per clock cycle with a compact hardware footprint. Our case study on the Dilithium NTT, implemented using the TSMC 28 nm library, operates at a clock frequency of 1.0 GHz with an area of 1.45 mm^2. On FPGA, the design achieves a throughput-per-LUT that is 5.2x higher than the state-of-the-art implementation.
- Abstract(参考訳): Number Theoretic Transform (NTT) は、格子ベースのポスト量子暗号(PQC)アルゴリズムにおいて重要な計算ボトルネックである。
高速フーリエ変換(FFT)アルゴリズムを利用することで、次数 N - 1 の多項式の NTT を O(N log N) の時間複雑性で計算することができる。
NTTのハードウェア実装は、複雑なメモリアクセスパターンとモジュラー演算のために、ソフトウェアよりも一般的に好まれる。
しかし、ハードウェアの最大スループットを達成するには、通常、大量のバタフライユニットのインスタンス化を必要とする。
本研究では,これらのアルゴリズムのリングパラメータが固定されているという事実を利用して,設計時定数最適化を実現し,ハードウェアフットプリントをコンパクトにすることで,クロックサイクル当たりのNポイントNTTのスループットを最大化できる@NTTを提案する。
TSMC 28nmライブラリを用いて実装したDilithium NTTのケーススタディでは、周波数1.0GHz、面積1.45mm^2のクロック周波数で動作する。
FPGAでは、最先端の実装よりも5.2倍高いスループットのLUTを実現している。
関連論文リスト
- SCE-NTT: A Hardware Accelerator for Number Theoretic Transform Using Superconductor Electronics [12.616265554244313]
本研究では, 超伝導エレクトロニクス(SCE)を用いた完全同相暗号(FHE)の高速化について検討する。
本稿では,超伝導単一フラックス量子(SFQ)論理とメモリに基づく専用ハードウェアアクセラレータであるSCE-NTTを紹介する。
我々はNTT-128ユニットが34GHzで531万NTT/secを達成することを示す。
論文 参考訳(メタデータ) (2025-08-28T23:37:51Z) - Generalized tensor transforms and their applications in classical and quantum computing [0.0]
一般化変換(GTT)のための新しいフレームワークを導入し、任意の$b倍の単位行列$W$のテンソル積を$n$フォールドで構築する。
量子アプリケーションの場合、GTTベースのアルゴリズムはゲートの複雑さと回路深さが$O(log_b N)$であり、$N = bn$はベクトル入力の長さを表す。
本稿では,量子状態圧縮と伝送,関数符号化,量子ディジタル信号処理など,量子コンピューティングにおけるGTTの多様な応用について検討する。
論文 参考訳(メタデータ) (2025-07-03T08:28:00Z) - GDNTT: an Area-Efficient Parallel NTT Accelerator Using Glitch-Driven Near-Memory Computing and Reconfigurable 10T SRAM [14.319119105134309]
本稿では、グリッチ駆動ニアメモリコンピューティング(GDNTT)を用いた領域効率の高い高並列NTT加速器を提案する。
この設計はデータストレージ用の10Tを統合し、柔軟な行/列のデータアクセスと合理化回路マッピング戦略を可能にする。
評価の結果,提案したNTTアクセラレーターは,最先端技術と比較して1.528*のスループット向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-13T01:53:07Z) - A Unified Hardware Accelerator for Fast Fourier Transform and Number Theoretic Transform [0.0]
Number Theoretic Transform (NTT) は、ポスト量子格子ベースの暗号において効率的な乗算を計算するのに欠かせないツールである。
512点複素FFTと256点NTTの両方をサポートする統一ハードウェアアクセラレータを実証する。
本実装は,FPGA上での最先端のML-KEM/ML-DSA NTTアクセラレータに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-15T12:13:05Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。