論文の概要: GPU Kernel Optimization Beyond Full Builds: An LLM Framework with Minimal Executable Programs
- arxiv url: http://arxiv.org/abs/2512.22147v1
- Date: Mon, 15 Dec 2025 07:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.072663
- Title: GPU Kernel Optimization Beyond Full Builds: An LLM Framework with Minimal Executable Programs
- Title(参考訳): フルビルドを越えたGPUカーネル最適化 - 最小実行可能なプログラムを備えたLLMフレームワーク
- Authors: Ruifan Chu, Anbang Wang, Xiuxiu Bai, Shuai Liu, Xiaoshe Dong,
- Abstract要約: 大規模な言語モデル手法では、カーネルのコンパイルと実行を安価にチューニングできると仮定する。
完全なアプリケーションを構築することなくカーネルを最適化する性能フィードバックを備えたエンドツーエンドのLLMフレームワークを提案する。
このフレームワークは自動エラー修正とパフォーマンスパターン継承を統合し、欠陥を修正し、正確性を保ち、効果的なタイリング/メモリ/同期戦略を再利用し、検索コストを削減する。
- 参考スコア(独自算出の注目度): 5.25288153386589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In high-performance computing, hotspot GPU kernels are primary bottlenecks, and expert manual tuning is costly and hard to port. Large language model methods often assume kernels can be compiled and executed cheaply, which fails in large applications where full builds and runs are expensive. We present an end-to-end LLM framework with performance feedback that optimizes kernels without building the full application. From independently extracted hotspot kernels, it automatically completes code into a Minimal Executable Program (MEP), then performs multi-round iterative optimization and evaluation outside the full application. The framework integrates Automatic Error Repair and Performance Pattern Inheritance to fix faults, preserve correctness, reuse effective tiling/memory/synchronization strategies, and reduce search cost. Optimized variants are reintegrated into the original application for validation. We evaluate on NVIDIA GPUs and the Haiguang Deep Computing Unit (DCU) platform (AMD-licensed architecture) using PolyBench, the AMD APP SDK, and hotspot kernels from large-scale supercomputing applications. The method achieves average speedups of 5.05x (PolyBench on NVIDIA), 7.77x (PolyBench on DCU), 1.77x (AMD APP SDK), and 1.25x on three hotspot kernels, surpassing direct LLM optimization. The approach requires no full-source dependencies, offers cross-platform portability, and enables practical, low-cost GPU kernel optimization.
- Abstract(参考訳): 高性能コンピューティングでは、ホットスポットGPUカーネルが主要なボトルネックであり、専門家の手動チューニングは高価で移植が難しい。
大規模な言語モデルメソッドは、カーネルのコンパイルと実行を安価に行うことができると仮定することが多いが、完全なビルドと実行が高価である大規模なアプリケーションでは失敗する。
完全なアプリケーションを構築することなくカーネルを最適化する性能フィードバックを備えたエンドツーエンドのLLMフレームワークを提案する。
独立に抽出されたホットスポットカーネルから,MEP(Minimmal Executable Program)にコードを自動で完了し,マルチラウンドの反復最適化と完全なアプリケーション外での評価を行う。
このフレームワークは自動エラー修正とパフォーマンスパターン継承を統合し、欠陥を修正し、正確性を保ち、効果的なタイリング/メモリ/同期戦略を再利用し、検索コストを削減する。
最適化された変種は、バリデーションのために元のアプリケーションに再統合される。
AMD APP SDKであるPolyBenchと大規模スーパーコンピュータアプリケーションのホットスポットカーネルを用いてNVIDIA GPUとHayguang Deep Computing Unit(DCU)プラットフォーム(AMDライセンスアーキテクチャ)を評価した。
この手法は,5.05x(NVIDIAのPolyBench),7.77x(DCUのPolyBench),1.77x(AMD APP SDK),1.25xの3つのホットスポットカーネル上での高速化を実現し,LCMを直接最適化した。
このアプローチは、フルソースの依存関係を必要とせず、クロスプラットフォームのポータビリティを提供し、実用的な低コストのGPUカーネル最適化を可能にする。
関連論文リスト
- CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - GPU Performance Portability needs Autotuning [0.0]
LLMは複雑さが増し、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア間の密な共同設計が必要である。
JIT(Just-in-time)コンパイルと包括的カーネルパラメータの自動チューニングを併用する。
我々の結果は、GPUベンダー間のモデルポータビリティをアンロックするための有望なパスとして、オートチューニングを強調しています。
論文 参考訳(メタデータ) (2025-04-30T12:57:21Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。