Fugu-MT 論文翻訳(概要): Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation

論文の概要: Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation

arxiv url: http://arxiv.org/abs/2502.11110v1
Date: Sun, 16 Feb 2025 12:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.852095
Title: Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation
Title（参考訳）: GPU高速化アルゴリズムとLLMに基づくコード生成によるNTTの記録時間向上
Authors: Yu Cui, Hang Fu, Licheng Wang, Haibin Zhang,
Abstract要約: ホモモルフィック暗号化(HE)はプライバシ保護機械学習(PPML)のコアビルディングブロックである HEの性能向上のために、多くのGPU加速暗号方式が提案されている。大規模言語モデル(LLM)の強力なコード生成能力を考えると、実用的なGPUフレンドリなアルゴリズムコードを自動的に生成する可能性を探究する。
参考スコア（独自算出の注目度）: 11.120838175165986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Homomorphic encryption (HE) is a core building block in privacy-preserving machine learning (PPML), but HE is also widely known as its efficiency bottleneck. Therefore, many GPU-accelerated cryptographic schemes have been proposed to improve the performance of HE. However, these methods often require complex modifications tailored to specific algorithms and are tightly coupled with specific GPU and operating systems. It is interesting to ask how to generally offer more practical GPU-accelerated cryptographic algorithm implementations. Given the powerful code generation capabilities of large language models (LLMs), we aim to explore their potential to automatically generate practical GPU-friendly algorithm code using CPU-friendly code. In this paper, we focus on number theoretic transform (NTT) -- the core mechanism of HE. We first develop and optimize a GPU-friendly NTT (GNTT) family that exploits PyTorch's fast matrix computation and precomputation, achieving an approximately 62x speedup -- a significant boost over existing ones. Then we explore GPU-friendly code generation using various LLMs, including DeepSeek-R1, OpenAI o1 and o3-mini. We discover many interesting findings throughout the process. For instance, somewhat surprisingly, our experiments demonstrate that DeepSeek-R1 significantly outperforms OpenAI o3-mini and o1, but still cannot beat our optimized protocol. The findings provide valuable insights for turbocharging PPML and enhancing code generation capabilities of LLMs. Codes are available at: https://github.com/LMPC-Lab/GenGPUCrypto.
Abstract（参考訳）: ホモモルフィック暗号化(HE)はプライバシ保護機械学習(PPML)の中核的なビルディングブロックであるが、HEはその効率ボトルネックとしても広く知られている。そのため、HEの性能向上のため、多くのGPU加速暗号方式が提案されている。しかし、これらの手法は特定のアルゴリズムに合わせて複雑な修正を必要とすることが多く、特定のGPUやオペレーティングシステムと密結合している。より実用的なGPUアクセラレーション暗号アルゴリズムの実装をどのように提供するのか、という質問は興味深い。大規模言語モデル(LLM)の強力なコード生成機能を考えると,CPUフレンドリなコードを使用して,実用的なGPUフレンドリなアルゴリズムコードを自動的に生成する可能性を探究する。本稿では,数理論変換(NTT)に着目し,HEのコアメカニズムについて述べる。我々はまず、PyTorchの高速行列計算と事前計算を利用するGPUフレンドリなNTT(GNTT)ファミリを開発し、最適化し、62倍のスピードアップを実現しました。次に、DeepSeek-R1、OpenAI o1、o3-miniなど、さまざまなLLMを使用したGPUフレンドリなコード生成について検討する。プロセス全体で多くの興味深い発見が見つかりました。例えば、驚くべきことに、私たちの実験では、DeepSeek-R1はOpenAI o3-miniとo1を大きく上回っていますが、最適化されたプロトコルには勝てないことが示されています。その結果, PPMLのターボチャージおよびLLMのコード生成能力向上に有用な知見が得られた。コードは、https://github.com/LMPC-Lab/GenGPUCrypto.comで入手できる。

関連論文リスト

A Parallel CPU-GPU Framework for Cost-Bounded DFS with Applications to IDA* and BTS [13.186524200050957]
本稿では,深度第一探索におけるGPU計算手法を提案する。これは、Iterative Deepening A* (IDA*)アルゴリズムの拡張であるemphsynchronous IDA*のようなアルゴリズムを作成するために使用される。本研究では, 3x3 の Rubik Cube と 4x4 のスライディングタイルパズル (STP) に対するアプローチを評価し,GPU 操作を DFS で効率的にバッチ化可能であることを示す。
論文参考訳（メタデータ） (2025-07-16T05:07:33Z)
QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm [24.09018606185114]
我々は,LLMがGPU上での高レベル最適化ロジックの生成と低レベル実装を分離するためのLLMフレンドリーな思考言語(LLM-TL)を提案する。 2段階の推論ワークフロー、TL-Codeの生成と変換に加えて、LLMはさまざまなGPU上でFlashAttention実装を自動的に生成できる。
論文参考訳（メタデータ） (2025-06-14T05:38:19Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文参考訳（メタデータ） (2021-10-05T07:42:41Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
CryptGPU: Fast Privacy-Preserving Machine Learning on the GPU [8.633428365391666]
CryptGPUは、GPU上のすべての操作を実装するプライバシー保護機械学習のためのシステムです。秘密共有された値を浮動小数点演算に埋め込む新しいインタフェースを導入する。提案プロトコルは,プライベート推論の2倍から8倍,プライベートトレーニングの6倍から36倍の改善を実現している。
論文参考訳（メタデータ） (2021-04-22T09:21:40Z)
Bringing UMAP Closer to the Speed of Light with GPU Acceleration [28.64858826371568]
UMAPの高速で忠実なGPUバージョンを作るために使用できるテクニックをいくつか紹介する。これらの設計選択/無数の多くは汎用的であり、GPUを使用するための他のグラフおよび多様体学習アルゴリズムの変換を知らせる可能性がある。
論文参考訳（メタデータ） (2020-08-01T19:35:56Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2～3桁遅い。
論文参考訳（メタデータ） (2020-02-21T08:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。