論文の概要: Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2502.11110v1
- Date: Sun, 16 Feb 2025 12:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:03.042699
- Title: Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation
- Title(参考訳): GPU高速化アルゴリズムとLLMに基づくコード生成によるNTTの記録時間向上
- Authors: Yu Cui, Hang Fu, Licheng Wang, Haibin Zhang,
- Abstract要約: ホモモルフィック暗号化(HE)はプライバシ保護機械学習(PPML)のコアビルディングブロックである
HEの性能向上のために、多くのGPU加速暗号方式が提案されている。
大規模言語モデル(LLM)の強力なコード生成能力を考えると、実用的なGPUフレンドリなアルゴリズムコードを自動的に生成する可能性を探究する。
- 参考スコア(独自算出の注目度): 11.120838175165986
- License:
- Abstract: Homomorphic encryption (HE) is a core building block in privacy-preserving machine learning (PPML), but HE is also widely known as its efficiency bottleneck. Therefore, many GPU-accelerated cryptographic schemes have been proposed to improve the performance of HE. However, these methods often require complex modifications tailored to specific algorithms and are tightly coupled with specific GPU and operating systems. It is interesting to ask how to generally offer more practical GPU-accelerated cryptographic algorithm implementations. Given the powerful code generation capabilities of large language models (LLMs), we aim to explore their potential to automatically generate practical GPU-friendly algorithm code using CPU-friendly code. In this paper, we focus on number theoretic transform (NTT) -- the core mechanism of HE. We first develop and optimize a GPU-friendly NTT (GNTT) family that exploits PyTorch's fast matrix computation and precomputation, achieving an approximately 62x speedup -- a significant boost over existing ones. Then we explore GPU-friendly code generation using various LLMs, including DeepSeek-R1, OpenAI o1 and o3-mini. We discover many interesting findings throughout the process. For instance, somewhat surprisingly, our experiments demonstrate that DeepSeek-R1 significantly outperforms OpenAI o3-mini and o1, but still cannot beat our optimized protocol. The findings provide valuable insights for turbocharging PPML and enhancing code generation capabilities of LLMs. Codes are available at: https://github.com/LMPC-Lab/GenGPUCrypto.
- Abstract(参考訳): ホモモルフィック暗号化(HE)はプライバシ保護機械学習(PPML)の中核的なビルディングブロックであるが、HEはその効率ボトルネックとしても広く知られている。
そのため、HEの性能向上のため、多くのGPU加速暗号方式が提案されている。
しかし、これらの手法は特定のアルゴリズムに合わせて複雑な修正を必要とすることが多く、特定のGPUやオペレーティングシステムと密結合している。
より実用的なGPUアクセラレーション暗号アルゴリズムの実装をどのように提供するのか、という質問は興味深い。
大規模言語モデル(LLM)の強力なコード生成機能を考えると,CPUフレンドリなコードを使用して,実用的なGPUフレンドリなアルゴリズムコードを自動的に生成する可能性を探究する。
本稿では,数理論変換(NTT)に着目し,HEのコアメカニズムについて述べる。
我々はまず、PyTorchの高速行列計算と事前計算を利用するGPUフレンドリなNTT(GNTT)ファミリを開発し、最適化し、62倍のスピードアップを実現しました。
次に、DeepSeek-R1、OpenAI o1、o3-miniなど、さまざまなLLMを使用したGPUフレンドリなコード生成について検討する。
プロセス全体で多くの興味深い発見が見つかりました。
例えば、驚くべきことに、私たちの実験では、DeepSeek-R1はOpenAI o3-miniとo1を大きく上回っていますが、最適化されたプロトコルには勝てないことが示されています。
その結果, PPMLのターボチャージおよびLLMのコード生成能力向上に有用な知見が得られた。
コードは、https://github.com/LMPC-Lab/GenGPUCrypto.comで入手できる。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - CryptGPU: Fast Privacy-Preserving Machine Learning on the GPU [8.633428365391666]
CryptGPUは、GPU上のすべての操作を実装するプライバシー保護機械学習のためのシステムです。
秘密共有された値を浮動小数点演算に埋め込む新しいインタフェースを導入する。
提案プロトコルは,プライベート推論の2倍から8倍,プライベートトレーニングの6倍から36倍の改善を実現している。
論文 参考訳(メタデータ) (2021-04-22T09:21:40Z) - Bringing UMAP Closer to the Speed of Light with GPU Acceleration [28.64858826371568]
UMAPの高速で忠実なGPUバージョンを作るために使用できるテクニックをいくつか紹介する。
これらの設計選択/無数の多くは汎用的であり、GPUを使用するための他のグラフおよび多様体学習アルゴリズムの変換を知らせる可能性がある。
論文 参考訳(メタデータ) (2020-08-01T19:35:56Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。