論文の概要: Enabling AI ASICs for Zero Knowledge Proof
- arxiv url: http://arxiv.org/abs/2604.17808v1
- Date: Mon, 20 Apr 2026 05:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.699312
- Title: Enabling AI ASICs for Zero Knowledge Proof
- Title(参考訳): ゼロ知識証明のためのAIASICの実装
- Authors: Jianming Tong, Jingtian Dang, Simon Langowski, Tianhao Huang, Asra Ali, Jeremy Kun, Jevin Jiang, Srinivas Devadas, Tushar Krishna,
- Abstract要約: MORPHは、AI-ASIC実行に合わせてZKPカーネルを再構成するフレームワークである。
我々は,ZKPカーネルをAI-ASIC実行に合わせて再構成する最初のフレームワークであるMORPHを提案する。
- 参考スコア(独自算出の注目度): 11.378705983214388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-knowledge proof (ZKP) provers remain costly because multi-scalar multiplication (MSM) and number-theoretic transforms (NTTs) dominate runtime as they need significant computation. AI ASICs such as TPUs provide massive matrix throughput and SotA energy efficiency. We present MORPH, the first framework that reformulates ZKP kernels to match AI-ASIC execution. We introduce Big-T complexity, a hardware-aware complexity model that exposes heterogeneous bottlenecks and layout-transformation costs ignored by Big-O. Guided by this analysis, (1) at arithmetic level, MORPH develops an MXU-centric extended-RNS lazy reduction that converts high-precision modular arithmetic into dense low-precision GEMMs, eliminating all carry chains, and (2) at dataflow level, MORPH constructs a unified-sharding layout-stationary TPU Pippenger MSM and optimized 3/5-step NTT that avoid on-TPU shuffles to minimize costly memory reorganization. Implemented in JAX, MORPH enables TPUv6e8 to achieve up-to 10x higher throughput on NTT and comparable throughput on MSM than GZKP. Our code: https://github.com/EfficientPPML/MORPH.
- Abstract(参考訳): マルチスカラー乗算 (MSM) と数値理論変換 (NTT) が大きな計算を必要とするため、ゼロ知識証明 (ZKP) はコストがかかるままである。
TPUのようなAIASICは、巨大な行列スループットとSotAエネルギー効率を提供する。
我々は,ZKPカーネルをAI-ASIC実行に合わせて再構成する最初のフレームワークであるMORPHを提案する。
ハードウェアを意識した複雑性モデルであるBig-Tの複雑性を導入し、Big-Oで無視される不均一なボトルネックとレイアウト変換コストを明らかにする。
この分析によって、MORPHは、(1)算術レベルでは、MXU中心の拡張RNS遅延低減法を開発し、高い精度のモジュラー演算を高密度な低精度GEMMに変換し、すべてのキャリーチェーンを排除し、(2)データフローレベルでは、統一シャーディングレイアウト定常TPU Pippenger MSMを構築し、3/5ステップNTTを最適化し、TPUシャッフルを回避し、コストのかかるメモリ再編成を最小化する。
JAXで実装されたMORPHは、TPUv6e8がNTTで最大10倍のスループットを実現し、GZKPよりもMSMで同等のスループットを実現する。
私たちのコード:https://github.com/EfficientPPML/MORPH。
関連論文リスト
- Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer [84.8831358775386]
スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりも優れたエネルギー効率を提供する
ANN-SNN ConversionやSpatial-Temporal Backpropagation (STBP)といった既存のパラダイムは、固有の制限に悩まされている。
Ge$text2$mS-Tを提案する。これは時間的・空間的・ネットワーク的構造次元にまたがるグループ計算を実装した新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-10T02:58:46Z) - POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation [57.57816409869894]
大規模言語モデルをトレーニングするためのスケーラブルでメモリ効率のよい変種であるPOET-Xを紹介する。
PoET-Xは、スループットとメモリ効率を大幅に改善しながら、PoETの一般化と安定性の利点を維持している。
論文 参考訳(メタデータ) (2026-03-05T18:59:23Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。
このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。
HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文 参考訳(メタデータ) (2025-01-13T04:08:14Z) - SZKP: A Scalable Accelerator Architecture for Zero-Knowledge Proofs [10.603449308259496]
ZKPは検証可能なコンピューティングにおける創発的なパラダイムである。
証明生成における2つの重要なプリミティブは、Number Theoretic Transform(NTT)とMulti-scalar multiplication(MSM)である。
我々は,チップ上での証明全体を高速化する最初のASICであるスケーラブルなアクセラレータフレームワークであるSZKPを提案する。
論文 参考訳(メタデータ) (2024-08-12T01:53:58Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。