論文の概要: HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration
- arxiv url: http://arxiv.org/abs/2506.10401v1
- Date: Thu, 12 Jun 2025 06:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.612351
- Title: HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration
- Title(参考訳): HPCTransCompile: 高性能CUDAトランスパイラとLLM予備探索のためのAIコンパイラ生成データセット
- Authors: Jiaqi Lv, Xufeng He, Yanchen Liu, Xu Dai, Yang Hu, Shouyi Yin,
- Abstract要約: ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIAのエコシステムは、並列ソフトウェア分野において支配的な地位を確立している。
この優位性は、他のハードウェアプラットフォームがパフォーマンスポータビリティを備えたサポートベースのソフトウェアを必要とする。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
- 参考スコア(独自算出の注目度): 11.264218374385191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of deep learning has driven exponential increases in model parameters and computational demands. NVIDIA GPUs and their CUDA-based software ecosystem provide robust support for parallel computing, significantly alleviating computational bottlenecks. Meanwhile, due to the cultivation of user programming habits and the high performance of GPUs, the CUDA ecosystem has established a dominant position in the field of parallel software. This dominance requires other hardware platforms to support CUDA-based software with performance portability. However, translating CUDA code to other platforms poses significant challenges due to differences in parallel programming paradigms and hardware architectures. Existing approaches rely on language extensions, domain-specific languages (DSLs), or compilers but face limitations in workload coverage and generalizability. Moreover, these methods often incur substantial development costs. Recently, LLMs have demonstrated extraordinary potential in various vertical domains, especially in code-related tasks. However, the performance of existing LLMs in CUDA transpilation, particularly for high-performance code, remains suboptimal. The main reason for this limitation lies in the lack of high-quality training datasets. To address these challenges, we propose a novel framework for generating high-performance CUDA and corresponding platform code pairs, leveraging AI compiler and automatic optimization technology. We further enhance the framework with a graph-based data augmentation method and introduce HPCTransEval, a benchmark for evaluating LLM performance on CUDA transpilation. We conduct experiments using CUDA-to-CPU transpilation as a case study on leading LLMs. The result demonstrates that our framework significantly improves CUDA transpilation, highlighting the potential of LLMs to address compatibility challenges within the CUDA ecosystem.
- Abstract(参考訳): ディープラーニングの急速な成長により、モデルパラメータや計算要求が指数関数的に増加した。
NVIDIA GPUとそのCUDAベースのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供し、計算ボトルネックを大幅に緩和する。
一方,ユーザプログラミングの習熟とGPUの性能向上により,CUDAエコシステムは並列ソフトウェア分野において支配的な地位を確立している。
この優位性は、他のハードウェアプラットフォームがCUDAベースのソフトウェアをパフォーマンスポータビリティでサポートする必要がある。
しかし、CUDAコードを他のプラットフォームに翻訳することは、並列プログラミングパラダイムとハードウェアアーキテクチャの違いによって大きな課題となる。
既存のアプローチは言語拡張やドメイン固有言語(DSL)、コンパイラに依存しているが、ワークロードのカバレッジと一般化性には制限がある。
さらに、これらの手法は、しばしば相当な開発コストを発生させる。
近年、LLMは様々な垂直領域、特にコード関連タスクにおいて極めて有意な可能性を証明している。
しかし、CUDAトランスパイレーションにおける既存のLLMの性能、特に高性能コードの性能は、依然として準最適である。
この制限の主な理由は、高品質なトレーニングデータセットの欠如にある。
これらの課題に対処するため,我々は,AIコンパイラと自動最適化技術を活用して,高性能なCUDAと対応するプラットフォームコードペアを生成する新しいフレームワークを提案する。
さらに、グラフベースのデータ拡張手法によりフレームワークをさらに強化し、CUDAトランスパイレーション上でのLCM性能を評価するベンチマークであるHPCTransEvalを導入する。
我々は, CUDA-to-CPUトランスパイルを用いた実験を, 先行LLMのケーススタディとして実施する。
その結果、我々のフレームワークはCUDAのトランスパイレーションを大幅に改善し、CUDAエコシステム内の互換性問題に対処するLLMの可能性を強調した。
関連論文リスト
- CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。