論文の概要: gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography
- arxiv url: http://arxiv.org/abs/2501.03245v1
- Date: Sun, 22 Dec 2024 01:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-12 03:45:57.796007
- Title: gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography
- Title(参考訳): gECC:楕円曲線暗号のためのGPUベースの高スループットフレームワーク
- Authors: Qian Xiong, Weiliang Ma, Xuanhua Shi, Yongluan Zhou, Hai Jin, Kaiyi Huang, Haozhou Wang, Zhengru Wang,
- Abstract要約: Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。
ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。
本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
- 参考スコア(独自算出の注目度): 15.39096542261856
- License:
- Abstract: Elliptic Curve Cryptography (ECC) is an encryption method that provides security comparable to traditional techniques like Rivest-Shamir-Adleman (RSA) but with lower computational complexity and smaller key sizes, making it a competitive option for applications such as blockchain, secure multi-party computation, and database security. However, the throughput of ECC is still hindered by the significant performance overhead associated with elliptic curve (EC) operations. This paper presents gECC, a versatile framework for ECC optimized for GPU architectures, specifically engineered to achieve high-throughput performance in EC operations. gECC incorporates batch-based execution of EC operations and microarchitecture-level optimization of modular arithmetic. It employs Montgomery's trick to enable batch EC computation and incorporates novel computation parallelization and memory management techniques to maximize the computation parallelism and minimize the access overhead of GPU global memory. Also, we analyze the primary bottleneck in modular multiplication by investigating how the user codes of modular multiplication are compiled into hardware instructions and what these instructions' issuance rates are. We identify that the efficiency of modular multiplication is highly dependent on the number of Integer Multiply-Add (IMAD) instructions. To eliminate this bottleneck, we propose techniques to minimize the number of IMAD instructions by leveraging predicate registers to pass the carry information and using addition and subtraction instructions (IADD3) to replace IMAD instructions. Our results show that, for ECDSA and ECDH, gECC can achieve performance improvements of 5.56x and 4.94x, respectively, compared to the state-of-the-art GPU-based system. In a real-world blockchain application, we can achieve performance improvements of 1.56x, compared to the state-of-the-art CPU-based system.
- Abstract(参考訳): Elliptic Curve Cryptography(ECC)は、Rivest-Shamir-Adleman(RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法だが、計算の複雑さが小さく、キーサイズが小さいため、ブロックチェーンやセキュアなマルチパーティ計算、データベースセキュリティといったアプリケーションに対して、競争力のある選択肢となる。
しかし、ECCのスループットは楕円曲線(EC)演算に関連する大きな性能上のオーバーヘッドによって妨げられている。
本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCについて述べる。
gECCは、EC操作のバッチベースの実行と、モジュラー演算のマイクロアーキテクチャレベルの最適化を取り入れている。
バッチEC計算を可能にするためにモンゴメリーのトリックを採用し、新しい計算並列化とメモリ管理技術を導入し、計算並列性を最大化し、GPUグローバルメモリのアクセスオーバーヘッドを最小限にする。
また,モジュール型乗算のユーザコードがどのようにハードウェア命令にコンパイルされ,それらの命令の発行率がどうなるかを調べることで,モジュール型乗算における主要なボトルネックを分析する。
モジュール乗算の効率は,Integer Multiply-Add (IMAD) 命令の数に大きく依存している。
このボトルネックを回避するため,IMAD命令を置き換えるために,IMAD命令の転送と追加・減算命令(IADD3)を用いることで,述語レジスタを活用してIMAD命令数を最小化する手法を提案する。
ECDSA と ECDH の場合,gECC は最新の GPU ベースシステムと比較して,それぞれ 5.56x と 4.94x の性能向上を実現可能である。
現実世界のブロックチェーンアプリケーションでは、最先端のCPUベースのシステムと比較して、1.56倍のパフォーマンス向上を実現しています。
関連論文リスト
- Code Generation for Cryptographic Kernels using Multi-word Modular Arithmetic on GPU [0.5831737970661138]
同型暗号(FHE)とゼロ知識証明(ZKP)が分散環境におけるデータセキュリティのソリューションとして出現している。
本稿では,Multi-word modular arithmetic (MoMA) の形式化を行い,大きなビット幅の整数演算を機械語上の演算に分解する。
論文 参考訳(メタデータ) (2025-01-13T18:15:44Z) - Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。
このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。
HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文 参考訳(メタデータ) (2025-01-13T04:08:14Z) - A Method for Efficient Heterogeneous Parallel Compilation: A Cryptography Case Study [8.06660833012594]
本稿では,多様なハードウェアアーキテクチャにまたがるデータ管理と並列計算を最適化するために,ハイパーという新しいMLIRベースの方言を提案する。
HETOCompilerは,複数のハッシュアルゴリズムを実装し,不均一なシステム上での実行を可能にする,暗号に着目したコンパイラのプロトタイプである。
論文 参考訳(メタデータ) (2024-07-12T15:12:51Z) - ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM [7.949839381468341]
楕円曲線暗号(ECC)は、公開鍵暗号(CPK)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。
論文 参考訳(メタデータ) (2024-02-21T22:26:44Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - Brain-inspired Cognition in Next Generation Racetrack Memories [0.6850683267295249]
超次元コンピューティング(Hyperdimensional Computing、HDC)は、認知をエミュレートするために数千次元のベクトルで動く脳にインスパイアされた新しい計算フレームワークである。
本稿では,レーストラックメモリ(RTM)をベースとして,メモリ内のHDCフレームワーク全体の実行と高速化を行うアーキテクチャを提案する。
提案手法では、最小限のCMOS回路が必要であり、Transverse Read (TR) と呼ばれるRTM内の複数の領域にまたがる読み出し演算を用いて排他的または追加操作を実現する。
論文 参考訳(メタデータ) (2021-11-03T14:21:39Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。