Fugu-MT 論文翻訳(概要): gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography

論文の概要: gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography

arxiv url: http://arxiv.org/abs/2501.03245v1
Date: Sun, 22 Dec 2024 01:50:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-12 21:42:02.365993
Title: gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography
Title（参考訳）: gECC:楕円曲線暗号のためのGPUベースの高スループットフレームワーク
Authors: Qian Xiong, Weiliang Ma, Xuanhua Shi, Yongluan Zhou, Hai Jin, Kaiyi Huang, Haozhou Wang, Zhengru Wang,
Abstract要約: Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。 ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
参考スコア（独自算出の注目度）: 15.39096542261856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Elliptic Curve Cryptography (ECC) is an encryption method that provides security comparable to traditional techniques like Rivest-Shamir-Adleman (RSA) but with lower computational complexity and smaller key sizes, making it a competitive option for applications such as blockchain, secure multi-party computation, and database security. However, the throughput of ECC is still hindered by the significant performance overhead associated with elliptic curve (EC) operations. This paper presents gECC, a versatile framework for ECC optimized for GPU architectures, specifically engineered to achieve high-throughput performance in EC operations. gECC incorporates batch-based execution of EC operations and microarchitecture-level optimization of modular arithmetic. It employs Montgomery's trick to enable batch EC computation and incorporates novel computation parallelization and memory management techniques to maximize the computation parallelism and minimize the access overhead of GPU global memory. Also, we analyze the primary bottleneck in modular multiplication by investigating how the user codes of modular multiplication are compiled into hardware instructions and what these instructions' issuance rates are. We identify that the efficiency of modular multiplication is highly dependent on the number of Integer Multiply-Add (IMAD) instructions. To eliminate this bottleneck, we propose techniques to minimize the number of IMAD instructions by leveraging predicate registers to pass the carry information and using addition and subtraction instructions (IADD3) to replace IMAD instructions. Our results show that, for ECDSA and ECDH, gECC can achieve performance improvements of 5.56x and 4.94x, respectively, compared to the state-of-the-art GPU-based system. In a real-world blockchain application, we can achieve performance improvements of 1.56x, compared to the state-of-the-art CPU-based system.
Abstract（参考訳）: Elliptic Curve Cryptography(ECC)は、Rivest-Shamir-Adleman(RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法だが、計算の複雑さが小さく、キーサイズが小さいため、ブロックチェーンやセキュアなマルチパーティ計算、データベースセキュリティといったアプリケーションに対して、競争力のある選択肢となる。しかし、ECCのスループットは楕円曲線(EC)演算に関連する大きな性能上のオーバーヘッドによって妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCについて述べる。 gECCは、EC操作のバッチベースの実行と、モジュラー演算のマイクロアーキテクチャレベルの最適化を取り入れている。バッチEC計算を可能にするためにモンゴメリーのトリックを採用し、新しい計算並列化とメモリ管理技術を導入し、計算並列性を最大化し、GPUグローバルメモリのアクセスオーバーヘッドを最小限にする。また,モジュール型乗算のユーザコードがどのようにハードウェア命令にコンパイルされ,それらの命令の発行率がどうなるかを調べることで,モジュール型乗算における主要なボトルネックを分析する。モジュール乗算の効率は,Integer Multiply-Add (IMAD) 命令の数に大きく依存している。このボトルネックを回避するため,IMAD命令を置き換えるために,IMAD命令の転送と追加・減算命令(IADD3)を用いることで,述語レジスタを活用してIMAD命令数を最小化する手法を提案する。 ECDSA と ECDH の場合,gECC は最新の GPU ベースシステムと比較して,それぞれ 5.56x と 4.94x の性能向上を実現可能である。現実世界のブロックチェーンアプリケーションでは、最先端のCPUベースのシステムと比較して、1.56倍のパフォーマンス向上を実現しています。

関連論文リスト

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。 AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文参考訳（メタデータ） (2026-02-27T18:58:05Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
ZKProphet: Understanding Performance of Zero-Knowledge Proofs on GPUs [0.7544506709471767]
Zero-Knowledge Proofs (ZKP) は、暗号証明を構築し、秘密に関する情報を公開せずに、秘密入力の知識を計算で示すプロトコルである。 ZKPは、匿名化された暗号通貨やブロックチェーンスケーリングのような、プライベートで検証可能なコンピューティングにおける新しいアプリケーションを可能にする。 ZKPにおける実行ボトルネックのシステマティックなキャラクタリゼーションと、最新のGPUアーキテクチャにおけるスケーラビリティが欠落していることが、文献で明らかになっている。
論文参考訳（メタデータ） (2025-09-17T22:52:19Z)
Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文参考訳（メタデータ） (2025-06-14T07:39:15Z)
The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文参考訳（メタデータ） (2025-06-13T12:40:16Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs [8.17483100683993]
我々は,乗算器(MAC)のビット重み次元に着目した,行列乗算に関する新しいハードウェア視点を導入する。タイミング,面積,消費電力を改善する4つの最適化手法を提案する。本手法は, 1.27x, 1.28x, 1.56x, 1.44xの面積効率向上と1.04x, 1.56x, 1.49x, 1.20xのエネルギー効率向上を実現する。
論文参考訳（メタデータ） (2025-03-08T21:21:23Z)
Code Generation for Cryptographic Kernels using Multi-word Modular Arithmetic on GPU [0.5831737970661138]
同型暗号(FHE)とゼロ知識証明(ZKP)が分散環境におけるデータセキュリティのソリューションとして出現している。本稿では,Multi-word modular arithmetic (MoMA) の形式化を行い,大きなビット幅の整数演算を機械語上の演算に分解する。
論文参考訳（メタデータ） (2025-01-13T18:15:44Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
An Efficient Algorithm for Modulus Operation and Its Hardware Implementation in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。暗号化アプリケーションにおけるスケーラビリティの課題に対処する。このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文参考訳（メタデータ） (2024-07-17T13:24:52Z)
A Method for Efficient Heterogeneous Parallel Compilation: A Cryptography Case Study [8.06660833012594]
本稿では,多様なハードウェアアーキテクチャにまたがるデータ管理と並列計算を最適化するために,ハイパーという新しいMLIRベースの方言を提案する。 HETOCompilerは,複数のハッシュアルゴリズムを実装し,不均一なシステム上での実行を可能にする,暗号に着目したコンパイラのプロトタイプである。
論文参考訳（メタデータ） (2024-07-12T15:12:51Z)
ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM [7.949839381468341]
楕円曲線暗号(ECC)は、公開鍵暗号(CPK)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。
論文参考訳（メタデータ） (2024-02-21T22:26:44Z)
Hybrid programming-model strategies for GPU offloading of electronic structure calculation kernels [2.4898174182192974]
PROGRESSは電子構造解析のためのライブラリである。電子構造カーネルに対する線形代数演算を実装している。本稿では,これらの実装における汎用戦略について述べる。
論文参考訳（メタデータ） (2024-01-24T19:38:01Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
Brain-inspired Cognition in Next Generation Racetrack Memories [0.6850683267295249]
超次元コンピューティング(Hyperdimensional Computing、HDC)は、認知をエミュレートするために数千次元のベクトルで動く脳にインスパイアされた新しい計算フレームワークである。本稿では,レーストラックメモリ(RTM)をベースとして,メモリ内のHDCフレームワーク全体の実行と高速化を行うアーキテクチャを提案する。提案手法では、最小限のCMOS回路が必要であり、Transverse Read (TR) と呼ばれるRTM内の複数の領域にまたがる読み出し演算を用いて排他的または追加操作を実現する。
論文参考訳（メタデータ） (2021-11-03T14:21:39Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。