論文の概要: ZKProphet: Understanding Performance of Zero-Knowledge Proofs on GPUs
- arxiv url: http://arxiv.org/abs/2509.22684v1
- Date: Wed, 17 Sep 2025 22:52:19 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-10-06 01:25:45.432146
- Title: ZKProphet: Understanding Performance of Zero-Knowledge Proofs on GPUs
- Title(参考訳): ZKProphet:GPU上でのゼロ知識証明のパフォーマンス理解
- Authors: Tarunesh Verma, Yichao Yuan, Nishil Talati, Todd Austin,
- Abstract要約: Zero-Knowledge Proofs (ZKP) は、暗号証明を構築し、秘密に関する情報を公開せずに、秘密入力の知識を計算で示すプロトコルである。
ZKPは、匿名化された暗号通貨やブロックチェーンスケーリングのような、プライベートで検証可能なコンピューティングにおける新しいアプリケーションを可能にする。
ZKPにおける実行ボトルネックのシステマティックなキャラクタリゼーションと、最新のGPUアーキテクチャにおけるスケーラビリティが欠落していることが、文献で明らかになっている。
- 参考スコア(独自算出の注目度): 0.7544506709471767
- License:
- Abstract: Zero-Knowledge Proofs (ZKP) are protocols which construct cryptographic proofs to demonstrate knowledge of a secret input in a computation without revealing any information about the secret. ZKPs enable novel applications in private and verifiable computing such as anonymized cryptocurrencies and blockchain scaling and have seen adoption in several real-world systems. Prior work has accelerated ZKPs on GPUs by leveraging the inherent parallelism in core computation kernels like Multi-Scalar Multiplication (MSM). However, we find that a systematic characterization of execution bottlenecks in ZKPs, as well as their scalability on modern GPU architectures, is missing in the literature. This paper presents ZKProphet, a comprehensive performance study of Zero-Knowledge Proofs on GPUs. Following massive speedups of MSM, we find that ZKPs are bottlenecked by kernels like Number-Theoretic Transform (NTT), as they account for up to 90% of the proof generation latency on GPUs when paired with optimized MSM implementations. Available NTT implementations under-utilize GPU compute resources and often do not employ architectural features like asynchronous compute and memory operations. We observe that the arithmetic operations underlying ZKPs execute exclusively on the GPU's 32-bit integer pipeline and exhibit limited instruction-level parallelism due to data dependencies. Their performance is thus limited by the available integer compute units. While one way to scale the performance of ZKPs is adding more compute units, we discuss how runtime parameter tuning for optimizations like precomputed inputs and alternative data representations can extract additional speedup. With this work, we provide the ZKP community a roadmap to scale performance on GPUs and construct definitive GPU-accelerated ZKPs for their application requirements and available hardware resources.
- Abstract(参考訳): Zero-Knowledge Proofs (ZKP) は、暗号証明を構築し、秘密に関する情報を公開せずに、秘密入力の知識を計算で示すプロトコルである。
ZKPは、匿名の暗号通貨やブロックチェーンスケーリングのような、プライベートで検証可能なコンピューティングにおける新しいアプリケーションを可能にし、いくつかの現実世界のシステムで採用されている。
それまでの作業は、Multi-Scalar Multiplication (MSM)のようなコア計算カーネルに固有の並列性を活用することで、GPU上のZKPを加速した。
しかし、ZKPにおける実行ボトルネックのシステマティックなキャラクタリゼーションと、最新のGPUアーキテクチャにおけるスケーラビリティは、文献に欠落している。
本稿では,ZKProphetについて述べる。ZKProphetはGPU上でのゼロ知識証明の総合的な性能研究である。
MSMの大幅な高速化に続いて、ZKPはNumber-Theoretic Transform (NTT)のようなカーネルによってボトルネックを受けていることが判明した。
利用可能なNTT実装はGPU計算リソースを未利用で、しばしば非同期計算やメモリ操作のようなアーキテクチャ機能を使用しない。
我々は、ZKPの演算処理がGPUの32ビット整数パイプラインでのみ実行されることを観察し、データ依存による命令レベルの並列性に制限があることを示した。
したがって、それらの性能は利用可能な整数演算ユニットによって制限される。
ZKPの性能を拡大する一つの方法は、演算ユニットを増やすことであるが、事前計算された入力や代替データ表現などの最適化のための実行時パラメータチューニングが、追加の高速化をいかに引き出すかについて議論する。
この作業により、ZKPコミュニティは、GPU上でのパフォーマンスを拡大し、アプリケーション要件と利用可能なハードウェアリソースに対して、決定的なGPUアクセラレーションを持つZKPを構築するロードマップを提供します。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。
ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。
本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文 参考訳(メタデータ) (2024-12-22T01:50:50Z) - if-ZKP: Intel FPGA-Based Acceleration of Zero Knowledge Proofs [3.0009885036586725]
本稿では,FPGA上でのzk-SNARK証明の高速化に適した,スケーラブルなアーキテクチャを提案する。
我々は、zk-SNARKシステムに費やされた時間の大半を占めるマルチスカラー乗算(MSM)に焦点を当てる。
我々の実装は、参照ソフトウェアライブラリに比べて110x-150倍高速に動作します。
論文 参考訳(メタデータ) (2024-12-17T02:35:32Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - SZKP: A Scalable Accelerator Architecture for Zero-Knowledge Proofs [10.603449308259496]
ZKPは検証可能なコンピューティングにおける創発的なパラダイムである。
証明生成における2つの重要なプリミティブは、Number Theoretic Transform(NTT)とMulti-scalar multiplication(MSM)である。
我々は,チップ上での証明全体を高速化する最初のASICであるスケーラブルなアクセラレータフレームワークであるSZKPを提案する。
論文 参考訳(メタデータ) (2024-08-12T01:53:58Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。