論文の概要: A High Performance and Efficient Post-Quantum Crypto-Processor for FrodoKEM
- arxiv url: http://arxiv.org/abs/2601.16500v1
- Date: Fri, 23 Jan 2026 07:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.579689
- Title: A High Performance and Efficient Post-Quantum Crypto-Processor for FrodoKEM
- Title(参考訳): フロドケム用高性能・高能率ポスト量子暗号回路
- Authors: Kai Li, Jiahao Lu, Fu Yao, Guang Zeng, Dongsheng Liu, Shengfei Gu, Zhengpeng Zhao, Jiachen Wang,
- Abstract要約: FrodoKEMは格子型後量子鍵カプセル化機構(KEM)である
国際標準化機構(ISO)により標準化が検討されている。
本稿では,FrodoKEMのための高性能かつ効率的な暗号プロセッサを提案する。
- 参考スコア(独自算出の注目度): 24.961829196441887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: FrodoKEM is a lattice-based post-quantum key encapsulation mechanism (KEM). It has been considered for standardization by the International Organization for Standardization (ISO) due to its robust security profile. However, its hardware implementation exhibits a weakness of high latency and heavy resource burden, hindering its practical application. Moreover, diverse usage scenarios call for comprehensive functionality. To address these challenges, this paper presents a high-performance and efficient crypto-processor for FrodoKEM. A multiple-instruction overlapped execution scheme is introduced to enable efficient multi-module scheduling and minimize operational latency. Furthermore, a high-speed, reconfigurable parallel multiplier array is integrated to handle intensive matrix computations under diverse computation patterns, significantly enhancing hardware efficiency. In addition, a compact memory scheduling strategy shortens the lifespan of intermediate matrices, thereby reducing overall storage requirements. The proposed design provides full support for all FrodoKEM security levels and protocol phases. It consumes 13467 LUTs, 6042 FFs, and 14 BRAMs on an Artix-7 FPGA and achieves the fastest reported execution time. Compared with state-of-the-art hardware implementations, our design improves the area-time product (ATP) by 1.75-2.00 times.
- Abstract(参考訳): FrodoKEMは格子ベースの後量子鍵カプセル化機構(KEM)である。
国際標準化機構(ISO)は、その堅牢なセキュリティプロファイルのために標準化を検討されている。
しかし、ハードウェアの実装は、レイテンシとリソースの重い負荷の弱点を示しており、実用的応用を妨げている。
さらに、多様な利用シナリオは包括的な機能を要求する。
これらの課題に対処するために,FrodoKEMのための高性能かつ効率的な暗号プロセッサを提案する。
マルチ命令重複実行方式を導入し,効率的なマルチモジュールスケジューリングと運用遅延の最小化を実現した。
さらに、高速で再構成可能な並列乗算器アレイを統合して、多種多様な計算パターン下での集中行列計算を処理し、ハードウェア効率を大幅に向上させる。
さらに、コンパクトなメモリスケジューリング戦略は中間行列の寿命を短縮し、全体的なストレージ要求を低減させる。
提案された設計は、すべてのFrodoKEMセキュリティレベルとプロトコルフェーズを完全にサポートする。
13467 LUT、6042 FF、14 BRAMをArtix-7 FPGAで消費し、最も高速に報告された実行時間を達成する。
最新のハードウェア実装と比較すると,地域時間製品(ATP)は1.75-2.00倍改善されている。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - A Scalable Architecture for Efficient Multi-bit Fully Homomorphic Encryption [1.4174227043241145]
本稿では,マルチビットTFHE計算の効率化を目的としたハードウェアアクセラレータTaurusを紹介する。
Taurusは、新しいFFTユニットを活用し、キー再利用戦略を通じてメモリ帯域幅を最適化することで、最大10ビットの暗号文をサポートする。
実験の結果,TaurusはCPU上で最大2600倍の高速化,GPU上で1200倍の高速化を実現した。
論文 参考訳(メタデータ) (2025-09-16T05:00:57Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。