論文の概要: Energy-Efficient NTT Sampler for Kyber Benchmarked on FPGA
- arxiv url: http://arxiv.org/abs/2505.01782v1
- Date: Sat, 03 May 2025 10:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.266265
- Title: Energy-Efficient NTT Sampler for Kyber Benchmarked on FPGA
- Title(参考訳): FPGA上でベンチマークしたカイバー用エネルギー効率の良いNTTサンプリング器
- Authors: Paresh Baidya, Rourab Paul, Vikas Srivastava, Sumit Kumar Debnath,
- Abstract要約: Kyberは、NIST Post-Quantum Cryptography (PQC)プロジェクトによって標準化のために選択された格子ベースの鍵カプセル化機構である。
キーバーの鍵生成過程の重要な構成要素は、環 Rq 上の一様分布から行列要素のサンプリングである。
このサンプリングに対する既存のアプローチは、リジェクションサンプリングに依存している。
本稿では,SHAKE-128からRqの要素を生成するために必要な平均ビット数を実質的に生成するModified SampleNTTを提案する。
- 参考スコア(独自算出の注目度): 0.8049701904919515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kyber is a lattice-based key encapsulation mechanism selected for standardization by the NIST Post-Quantum Cryptography (PQC) project. A critical component of Kyber's key generation process is the sampling of matrix elements from a uniform distribution over the ring Rq . This step is one of the most computationally intensive tasks in the scheme, significantly impacting performance in low-power embedded systems such as Internet of Things (IoT), wearable devices, wireless sensor networks (WSNs), smart cards, TPMs (Trusted Platform Modules), etc. Existing approaches to this sampling, notably conventional SampleNTT and Parse-SPDM3, rely on rejection sampling. Both algorithms require a large number of random bytes, which needs at least three SHAKE-128 squeezing steps per polynomial. As a result, it causes significant amount of latency and energy. In this work, we propose a novel and efficient sampling algorithm, namely Modified SampleNTT, which substantially educes the average number of bits required from SHAKE-128 to generate elements in Rq - achieving approximately a 33% reduction compared to conventional SampleNTT. Modified SampleNTT achieves 99.16% success in generating a complete polynomial using only two SHAKE-128 squeezes, outperforming both state-of-the-art methods, which never succeed in two squeezes of SHAKE-128. Furthermore, our algorithm maintains the same average rejection rate as existing techniques and passes all standard statistical tests for randomness quality. FPGA implementation on Artix-7 demonstrates a 33.14% reduction in energy, 33.32% lower latency, and 0.28% fewer slices compared to SampleNTT. Our results confirm that Modified SampleNTT is an efficient and practical alternative for uniform polynomial sampling in PQC schemes such as Kyber, especially for low-power security processors.
- Abstract(参考訳): Kyberは、NIST Post-Quantum Cryptography (PQC)プロジェクトによって標準化のために選択された格子ベースの鍵カプセル化機構である。
キーバーの鍵生成過程の重要な構成要素は、環 Rq 上の一様分布から行列要素のサンプリングである。
このステップは、IoT(Internet of Things)、ウェアラブルデバイス、無線センサネットワーク(WSN)、スマートカード、TPM(Trusted Platform Modules)など、低消費電力組み込みシステムのパフォーマンスに大きな影響を与えている。
このサンプリングに対する既存のアプローチ、特に従来のSampleNTTとParse-SPDM3は、リジェクションサンプリングに依存している。
どちらのアルゴリズムも多数のランダムバイトを必要としており、多項式ごとに少なくとも3つのSHAKE-128のスケザリングステップを必要とする。
その結果、大量のレイテンシとエネルギが発生する。
本研究では,従来のSampleNTTに比べて約33%の削減を実現し,SHAKE-128からRqの要素を生成するために必要なビット数を大幅に削減する,新しい効率的なサンプリングアルゴリズムであるModified SampleNTTを提案する。
改良されたSampleNTTは2つのSHAKE-128のみを使用して完全な多項式を生成するのに99.16%成功し、2つのSHAKE-128の圧縮では決して成功しない最先端の手法の両方を上回った。
さらに,本アルゴリズムは,既存の手法と同じ平均拒絶率を維持し,ランダム性の品質に関する標準的な統計試験をすべてパスする。
Artix-7のFPGA実装では、33.14%の省エネ、33.32%の低レイテンシ、0.28%のスライスを実現している。
この結果から,改良SampleNTTはKyberなどのPQCスキーム,特に低消費電力セキュリティプロセッサにおいて,一様多項式サンプリングのための効率的かつ実用的な代替手段であることが確認された。
関連論文リスト
- AI-Hybrid TRNG: Kernel-Based Deep Learning for Near-Uniform Entropy Harvesting from Physical Noise [0.0]
AI-Hybrid TRNGは、物理ノイズから直接、ほぼ一様エントロピーを抽出するディープラーニングフレームワークである。
トレーニングには、低コストで親指サイズのRFフロントエンドとCPUを最適化するジッタを使用し、量子化ステップなしで32ビットの高エントロピーストリームを出力する。
論文 参考訳(メタデータ) (2025-06-30T18:01:40Z) - Gaussian Weight Sampling for Scalable, Efficient and Stable Pseudo-Quantization Training [5.908471365011943]
PQT(Pseudo-quantization Training)は、完全量子化トレーニング(FQT)の課題に対処する。
我々は,最大1Bパラメータと300Bトークンを有するGPT2およびLlama2モデルの事前学習中に,重量サンプリングを伴うPQTが(3)安定であることを示す。
論文 参考訳(メタデータ) (2025-05-16T12:14:12Z) - Perturbation-efficient Zeroth-order Optimization for Hardware-friendly On-device Training [48.91359197313493]
Zeroth-order(ZO)最適化は、計算の単純さとメモリ節約を提供する、新たなディープニューラルネットワーク(DNN)トレーニングパラダイムである。
ZOは相当数のガウス乱数を生成する必要があり、これはかなりの困難を伴い、FPGAやASICのようなハードウェアプラットフォームでは利用できない。
乱数生成の需要を大幅に削減する摂動効率のZOフレームワークであるPeZOを提案する。
実験の結果,PeZO は乱数生成に必要な LUT と FF を 48.6% と 12.7% に削減し,最大 86% の消費電力を削減できることがわかった。
論文 参考訳(メタデータ) (2025-04-28T23:58:07Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Efficient Hardware Implementation of Constant Time Sampling for HQC [2.5234156040689237]
HQCは、NISTのポスト量子暗号標準化プロセスの最終ラウンドにおける、コードベースのファイナリストの1つである。
HQCにおけるハードウェアの効率的な実装とセキュリティに関して重要な計算カーネルは、乱数を引き出すのに使用されるサンプリング方法である。
セキュリティの臨界により、最近、サイドチャネル攻撃に対する堅牢性を高めるためにサンプリングアルゴリズムが更新された。
論文 参考訳(メタデータ) (2023-09-28T14:57:48Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Quantum Circuit Simulation by SGEMM Emulation on Tensor Cores and
Automatic Precision Selection [2.9385229328767988]
入力テンソル要素のレンジ統計を用いて、GEMM操作に使用するコアを選択する。
我々は,Sycamoreの量子回路を含むランダム回路サンプリング(RCS)において,スループットが最大1.86倍であることを示す。
論文 参考訳(メタデータ) (2023-03-15T23:35:41Z) - UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of
Diffusion Models [92.43617471204963]
拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。
我々は既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し、精度を向上する。
そこで我々は,DPMの高速サンプリングのためのUniPCと呼ばれる統合予測器・相関器フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-09T18:59:48Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - Efficient experimental characterization of quantum processes via
compressed sensing on an NMR quantum processor [4.291616110077346]
我々は、NMR量子プロセッサ上で真の量子プロセストモグラフィ(QPT)を実験的に実行するために、圧縮センシング(CS)アルゴリズムと、大幅に削減されたデータセットを用いる。
各種2量子および3量子ビット量子ゲートに対応するプロセス行列 $chi$ の推定値を得る。
また,3キュービットシステムに埋め込まれた2キュービットサブシステムの動的特性の低減を実験的に評価した。
論文 参考訳(メタデータ) (2021-09-27T17:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。