論文の概要: Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts
- arxiv url: http://arxiv.org/abs/2603.07169v1
- Date: Sat, 07 Mar 2026 12:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.988523
- Title: Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts
- Title(参考訳): LLMがマルチシナリオCUDAカーネルをエキスパートに最適化する
- Authors: Yuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu,
- Abstract要約: 現在の自動カーネル最適化手法は、科学計算におけるスパースマトリクス操作のようなより広い領域を見渡しながら、機械学習アプリケーションに焦点を当てている。
本稿では,MSBenchを導入したマルチシナリオ設定の体系的評価の欠如に対処する。
このベンチマークに基づいて、GPUプロファイリング情報を活用し、完全なコンパイルおよび実行ツールチェーンを自動構築する、カーネル最適化のためのハードウェア対応システムであるMSMasterを紹介する。
- 参考スコア(独自算出の注目度): 25.264078143000045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing GPU kernels manually is a challenging and time-consuming task. With the rapid development of LLMs, automated GPU kernel optimization is gradually becoming a tangible reality. However, current LLM-driven automated optimization methods narrowly focus on machine learning applications, such as PyTorch operator optimization, while overlooking broader domains like sparse matrix operations in scientific computing. Extending to these broader applications brings new challenges for the benchmark and algorithm. Therefore, developing a general-purpose automated kernel optimization method becomes our primary focus. In this paper, we address the absence of systematic evaluation for multi-scenario settings by introducing MSKernelBench, which spans multiple scenarios, including fundamental algebraic operations, common LLM kernels, sparse matrix operators, and scientific computing routines, each supporting both FP32 and BF16 precision. Building on this benchmark, we introduce CUDAMaster, a multi-agent, hardware-aware system for kernel optimization that leverages profiling information and automatically constructs the full compilation and execution toolchain. Experimental results demonstrate that CUDAMaster achieves significant speedups across most operators, outperforming Astra by about 35%. In several cases, its performance matches or surpasses that of highly optimized, closed-source libraries such as cuBLAS. A demo showcasing the original and optimized code for each operator is available at https://hanyx2021.github.io/MSKernelBenchDemo/.
- Abstract(参考訳): GPUカーネルを手動で最適化するのは難しく、時間を要する作業です。
LLMの急速な開発に伴い、自動GPUカーネル最適化は徐々に現実化しつつある。
しかしながら、現在のLLM駆動の自動最適化手法は、科学計算におけるスパース行列演算のようなより広い領域を見越しながら、PyTorch演算子最適化のような機械学習アプリケーションに焦点を絞っている。
これらの広範なアプリケーションの拡張は、ベンチマークとアルゴリズムに新たな課題をもたらす。
したがって,汎用的なカーネル最適化手法の開発が主眼となる。
本稿では、基本代数演算、共通LLMカーネル、スパース行列演算子、科学計算ルーチンなど、複数のシナリオにまたがるMSKernelBenchを導入し、FP32とBF16の精度をサポートするマルチシナリオ設定の体系的評価の欠如に対処する。
このベンチマークに基づいて,プロファイリング情報を活用し,完全なコンパイルおよび実行ツールチェーンを自動構築する,マルチエージェントでハードウェア対応のカーネル最適化システムであるCUDAMasterを紹介する。
実験の結果,CUDAMasterは演算子全体の大幅な高速化を実現し,Astraを約35%上回った。
いくつかのケースでは、その性能はcuBLASのような高度に最適化されたクローズドソースライブラリに匹敵する。
各オペレータのオリジナルと最適化されたコードをデモするデモはhttps://hanyx2021.github.io/MSKernelBenchDemo/で公開されている。
関連論文リスト
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。
エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。
最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-21T05:37:38Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Astra: A Multi-Agent System for GPU Kernel Performance Optimization [10.715861478214961]
我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。
Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
論文 参考訳(メタデータ) (2025-09-09T08:39:50Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。