論文の概要: EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03760v1
- Date: Sat, 04 Oct 2025 10:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.234928
- Title: EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models
- Title(参考訳): EvoEngineer: 大規模言語モデルによるCUDAカーネルコードの進化を自動化する
- Authors: Ping Guo, Chenyu Zhu, Siyuan Chen, Fei Liu, Xi Lin, Zhichao Lu, Qingfu Zhang,
- Abstract要約: カーネル最適化を自動化するLarge Language Models (LLMs) が約束する。
汎用LLMコード進化法は、カーネル最適化の厳密な正当性要件を満たすことができない。
EvoEngineerは、パフォーマンスと正確性のバランスを達成するために最適化戦略を設計し、適応するためのガイダンスを提供する。
提案手法は,PyTorchカーネル上のすべての操作のうち,最大速度のtextbf36.75$times を実現し,textbf28 (textbf56.0%) で最大速度の textbf2times$Acceleration を実現する。
- 参考スコア(独自算出の注目度): 27.430839306140157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CUDA kernel optimization has become a critical bottleneck for AI performance, as deep learning training and inference efficiency directly depends on highly optimized GPU kernels. Despite the promise of Large Language Models (LLMs) for automating kernel optimization, this field suffers from a fragmented ecosystem of isolated and incomparable approaches with unclear problem formulations. Furthermore, general-purpose LLM code evolution methods cannot meet strict correctness requirements of CUDA kernel optimization. We address these fundamental challenges by first formalizing CUDA kernel optimization as a code optimization task with a clear objective, constraints, and evaluation metrics. We then establish the first systematic LLM-based code evolution framework, EvoEngineer, that provides guidance for designing and adapting optimization strategies to achieve a balance between performance and correctness. Finally, we implement a kernel optimization system based on this framework and conduct extensive experiments on 91 real-world CUDA kernels. Our results demonstrate that EvoEngineer achieves a principled balance between performance and correctness, with the highest averaged median speedup of \textbf{2.72}$\times$ over baseline CUDA kernels and a code validity rate of \textbf{69.8}\%, outperforming existing methods on both dimensions. Our method achieves a maximum speedup of \textbf{36.75}$\times$ among all operations over PyTorch kernels and delivers the highest speedup on \textbf{28} (\textbf{56.0\%}) of 50 operations that achieve over \textbf{2$\times$} acceleration.
- Abstract(参考訳): ディープラーニングトレーニングと推論効率は、高度に最適化されたGPUカーネルに直接依存するため、CUDAカーネルの最適化はAIパフォーマンスにとって重要なボトルネックとなっている。
カーネル最適化を自動化するためのLarge Language Models (LLMs) の約束にもかかわらず、この分野は、不明確な問題定式化を伴う孤立的で非互換性なアプローチの断片化されたエコシステムに悩まされている。
さらに、汎用LLMコード進化法は、CUDAカーネル最適化の厳密な正当性要件を満たすことができない。
まず、CUDAカーネル最適化を明確な目的、制約、評価基準でコード最適化タスクとして定式化することで、これらの根本的な課題に対処する。
次に、私たちは、パフォーマンスと正確性のバランスを達成するために最適化戦略を設計し、適応するためのガイダンスを提供する、最初の体系的なLCMベースのコード進化フレームワークであるEvoEngineerを構築します。
最後に,本フレームワークに基づくカーネル最適化システムを実装し,91個の実世界のCUDAカーネルについて広範な実験を行った。
以上の結果から,EvoEngineerは性能と正しさのバランスを基本となるCUDAカーネル上での平均中央値の速度アップを最大とし,コード妥当性は \textbf{2.72}$\times$で両次元の既存手法より優れていた。
本手法は, PyTorchカーネル上のすべての演算のうち, \textbf{36.75}$\times$を最大スピードアップし, \textbf{2$\times$}を超越した50の演算に対して最高スピードアップを行う。
関連論文リスト
- Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs [31.28294215349796]
大規模言語モデル(LLM)を用いたBO強化のためのコンテキスト認識カーネル進化(CAKE)を提案する。
我々の新しいCAKEベースのBO法は、さまざまな現実世界のタスクで確立されたベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-22T16:39:12Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Efficient Convex Algorithms for Universal Kernel Learning [46.573275307034336]
カーネルの理想的な集合: 線形パラメータ化(トラクタビリティ)を認める; すべてのカーネルの集合に密着する(正確性)。
従来のカーネル最適化アルゴリズムは分類に限られており、計算に複雑なセミデフィニティプログラミング(SDP)アルゴリズムに依存していた。
本稿では,従来のSDP手法と比較して計算量を大幅に削減するSVD-QCQPQPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-15T04:57:37Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。