論文の概要: HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration
- arxiv url: http://arxiv.org/abs/2506.10401v2
- Date: Fri, 04 Jul 2025 02:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 17:51:39.916641
- Title: HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration
- Title(参考訳): HPCTransCompile: 高性能CUDAトランスパイラとLLM予備探索のためのAIコンパイラ生成データセット
- Authors: Jiaqi Lv, Xufeng He, Yanchen Liu, Xu Dai, Aocheng Shen, Yinghao Li, Jiachen Hao, Jianrong Ding, Yang Hu, Shouyi Yin,
- Abstract要約: ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
- 参考スコア(独自算出の注目度): 13.53425131505526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of deep learning has driven exponential increases in model parameters and computational demands. NVIDIA GPUs and their CUDA-based software ecosystem provide robust support for parallel computing, significantly alleviating computational bottlenecks. Meanwhile, due to the cultivation of user programming habits and the high performance of GPUs, the CUDA ecosystem has established a dominant position in the field of parallel software. This dominance requires other hardware platforms to support CUDA-based software with performance portability. However, translating CUDA code to other platforms poses significant challenges due to differences in parallel programming paradigms and hardware architectures. Existing approaches rely on language extensions, domain-specific languages (DSLs), or compilers but face limitations in workload coverage and generalizability. Moreover, these methods often incur substantial development costs. Recently, LLMs have demonstrated extraordinary potential in various vertical domains, especially in code-related tasks. However, the performance of existing LLMs in CUDA transpilation, particularly for high-performance code, remains suboptimal. To address these challenges, we propose a novel framework for generating high-performance CUDA and corresponding platform code pairs, leveraging AI compiler and automatic optimization technology. We further enhance the framework with a graph-based data augmentation method and introduce HPCTransEval, a benchmark for evaluating LLM performance on CUDA transpilation. We conduct experiments using CUDA-to-CPU transpilation as a case study on leading LLMs. The speedup ratio of the CPU operators has an average improvemnet of 43.8\%, highlighting the potential of LLMs to address compatibility challenges within the CUDA ecosystem. Our code is available at https://github.com/PJLAB-CHIP/HPCTransCompile.
- Abstract(参考訳): ディープラーニングの急速な成長により、モデルパラメータや計算要求が指数関数的に増加した。
NVIDIA GPUとそのCUDAベースのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供し、計算ボトルネックを大幅に緩和する。
一方,ユーザプログラミングの習熟とGPUの性能向上により,CUDAエコシステムは並列ソフトウェア分野において支配的な地位を確立している。
この優位性は、他のハードウェアプラットフォームがCUDAベースのソフトウェアをパフォーマンスポータビリティでサポートする必要がある。
しかし、CUDAコードを他のプラットフォームに翻訳することは、並列プログラミングパラダイムとハードウェアアーキテクチャの違いによって大きな課題となる。
既存のアプローチは言語拡張やドメイン固有言語(DSL)、コンパイラに依存しているが、ワークロードのカバレッジと一般化性には制限がある。
さらに、これらの手法は、しばしば相当な開発コストを発生させる。
近年、LLMは様々な垂直領域、特にコード関連タスクにおいて極めて有意な可能性を証明している。
しかし、CUDAトランスパイレーションにおける既存のLLMの性能、特に高性能コードの性能は、依然として準最適である。
これらの課題に対処するため,我々は,AIコンパイラと自動最適化技術を活用して,高性能なCUDAと対応するプラットフォームコードペアを生成する新しいフレームワークを提案する。
さらに、グラフベースのデータ拡張手法によりフレームワークをさらに強化し、CUDAトランスパイレーション上でのLCM性能を評価するベンチマークであるHPCTransEvalを導入する。
我々は, CUDA-to-CPUトランスパイルを用いた実験を, 先行LLMのケーススタディとして実施する。
CPU演算子のスピードアップ率は平均43.8 %であり、CUDAエコシステム内の互換性問題に対処するLLMの可能性を強調している。
私たちのコードはhttps://github.com/PJLAB-CHIP/HPCTransCompile.comで利用可能です。
関連論文リスト
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - PEAK: A Performance Engineering AI-Assistant for GPU Kernels Powered by Natural Language Transformations [0.8699280339422538]
我々は、自然言語変換を利用したカーネルのためのパフォーマンスエンジニアリングAIアシストであるPEAKを紹介する。
実装が利用可能な場合、ベンダーライブラリと競合し、(ライブラリなしで)HLSLについては、ドキュメント化されたFLOPSです。
論文 参考訳(メタデータ) (2025-12-22T04:15:24Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - From Large to Small: Transferring CUDA Optimization Expertise via Reasoning Graph [12.73098983668479]
大規模言語モデル(LLM)は、シーケンシャルコードから最適化されたコードを生成する強力な可能性を示している。
クラウドベースのAPIはコード漏洩のリスクを生じさせ、ローカルデプロイメントは計算コストが高く非効率であることが多い。
これらの欠点は、より軽量でプライバシーに優しい小言語モデル(SLM)への関心を喚起している。
論文 参考訳(メタデータ) (2025-10-22T08:33:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Video Parallel Scaling: Aggregating Diverse Frame Subsets for VideoLLMs [47.42197619278693]
Video Parallel Scaling (VPS) は、コンテキストウインドウを増大させることなく、モデルの知覚帯域を拡大する推論時手法である。
VPSは複数の並列推論ストリームを実行することで動作し、それぞれがビデオのフレームのユニークな非結合サブセットを処理する。
この手法は,非相関な視覚的証拠を活用することで,チンチラスケーリング法を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2025-09-09T00:55:04Z) - CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning [35.06696271451966]
本稿では,新しいコントラストアルゴリズムRL-L1を用いた自動強化学習フレームワークを提案する。
NVIDIA A100でトレーニングされたRL-L1では、平均速度はx3.12、中央速度はx1.42で、カーネルBenchの全250カーネルで最大速度はx120に達する。
論文 参考訳(メタデータ) (2025-07-18T17:43:56Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Extending C++ for Heterogeneous Quantum-Classical Computing [56.782064931823015]
qcorはC++とコンパイラの実装の言語拡張で、異種量子古典プログラミング、コンパイル、単一ソースコンテキストでの実行を可能にする。
我々の研究は、量子言語で高レベルな量子カーネル(関数)を表現できる、第一種C++コンパイラを提供する。
論文 参考訳(メタデータ) (2020-10-08T12:49:07Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。