Fugu-MT 論文翻訳(概要): Towards Closing the Performance Gap for Cryptographic Kernels Between CPUs and Specialized Hardware

論文の概要: Towards Closing the Performance Gap for Cryptographic Kernels Between CPUs and Specialized Hardware

arxiv url: http://arxiv.org/abs/2509.12494v1
Date: Mon, 15 Sep 2025 22:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 17:50:52.787795
Title: Towards Closing the Performance Gap for Cryptographic Kernels Between CPUs and Specialized Hardware
Title（参考訳）: CPUと専用ハードウェア間の暗号カーネルのパフォーマンス向上に向けて
Authors: Naifeng Zhang, Sophia Fu, Franz Franchetti,
Abstract要約: 我々は,x86 CPU用暗号カーネルをコア単位で最適化した実装を開発する。マルチワード拡張(MQX)と呼ばれる小型AVX-512拡張を提案する。 MQXはASICに対するスローダウンを1つのCPUコアで35倍に削減する。
参考スコア（独自算出の注目度）: 0.07646713951724009
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Specialized hardware like application-specific integrated circuits (ASICs) remains the primary accelerator type for cryptographic kernels based on large integer arithmetic. Prior work has shown that commodity and server-class GPUs can achieve near-ASIC performance for these workloads. However, achieving comparable performance on CPUs remains an open challenge. This work investigates the following question: How can we narrow the performance gap between CPUs and specialized hardware for key cryptographic kernels like basic linear algebra subprograms (BLAS) operations and the number theoretic transform (NTT)? To this end, we develop an optimized scalar implementation of these kernels for x86 CPUs at the per-core level. We utilize SIMD instructions (specifically AVX2 and AVX-512) to further improve performance, achieving an average speedup of 38 times and 62 times over state-of-the-art CPU baselines for NTTs and BLAS operations, respectively. To narrow the gap further, we propose a small AVX-512 extension, dubbed multi-word extension (MQX), which delivers substantial speedup with only three new instructions and minimal proposed hardware modifications. MQX cuts the slowdown relative to ASICs to as low as 35 times on a single CPU core. Finally, we perform a roofline analysis to evaluate the peak performance achievable with MQX when scaled across an entire multi-core CPU. Our results show that, with MQX, top-tier server-grade CPUs can approach the performance of state-of-the-art ASICs for cryptographic workloads.
Abstract（参考訳）: アプリケーション固有の集積回路(ASIC)のような特殊なハードウェアは、大きな整数演算に基づく暗号カーネルの主要なアクセラレータータイプである。これまでの研究によると、コモディティとサーバクラスのGPUは、これらのワークロードでほぼASICのパフォーマンスを実現することができる。しかし、CPU上で同等のパフォーマンスを達成することは、依然としてオープンな課題である。基本線形代数部分プログラム (BLAS) 演算や数理論変換 (NTT) といった暗号カーネルのCPUと専用ハードウェアのパフォーマンスギャップを狭めるにはどうすればよいか? この目的のために,コア単位のx86 CPUに対して,これらのカーネルのスカラー実装を最適化する。 SIMD命令(具体的には AVX2 と AVX-512 )を用いて、NTT と BLAS の動作に対して平均 38 倍と 62 倍の高速化を実現した。さらにギャップを狭めるために,マルチワード拡張(MQX)と呼ばれる小型のAVX-512拡張を提案する。 MQXはASICに対するスローダウンを1つのCPUコアで35倍に削減する。最後に,マルチコアCPU全体にわたって,MQXで実現可能なピーク性能を評価するために,屋根面解析を行った。 MQXでは,トップレベルのサーバグレードのCPUが,暗号処理のための最先端ASICの性能にアプローチ可能であることを示す。

関連論文リスト

Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures [3.2645124275315163]
大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
論文参考訳（メタデータ） (2025-04-16T04:02:39Z)
Q-GEAR: Improving quantum simulation framework [0.28402080392117757]
本稿では,Qiskit量子回路をCuda-Qカーネルに変換するソフトウェアフレームワークであるQ-Gearを紹介する。 Q-GearはCPUとGPUベースのシミュレーションをそれぞれ、最小のコーディング労力で2桁と10倍に高速化する。
論文参考訳（メタデータ） (2025-04-04T22:17:51Z)
gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。 ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文参考訳（メタデータ） (2024-12-22T01:50:50Z)
Hybrid quantum programming with PennyLane Lightning on HPC platforms [0.0]
PennyLaneのLightningスイートは、CPU、GPU、HPCネイティブアーキテクチャとワークロードをターゲットにした高性能なステートベクタシミュレータのコレクションである。 QAOA、VQE、合成ワークロードなどの量子アプリケーションは、サポート対象の古典的コンピューティングアーキテクチャを実証するために実装されている。
論文参考訳（メタデータ） (2024-03-04T22:01:03Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Combining processing throughput, low latency and timing accuracy in experiment control [0.0]
我々はARTIQ実験制御インフラのファームウェアを商用のXilinx Zynq-7000システムオンチップに基づく組み込みシステムに移植した。 FPGAファブリックと統合された高性能のハードワイヤCPUコアを含んでいる。
論文参考訳（メタデータ） (2021-11-30T11:11:02Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。