論文の概要: cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution
- arxiv url: http://arxiv.org/abs/2512.16465v1
- Date: Thu, 18 Dec 2025 12:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.052931
- Title: cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution
- Title(参考訳): cuPilot:CUDAカーネル進化のための戦略協調型マルチエージェントフレームワーク
- Authors: Jinwu Chen, Qidie Wu, Bin Li, Lin Ma, Xin Si, Yang Hu, Shouyi Yin, Jun Yang,
- Abstract要約: cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。
GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
- 参考スコア(独自算出の注目度): 15.701861287574296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing CUDA kernels is a challenging and labor-intensive task, given the need for hardware-software co-design expertise and the proprietary nature of high-performance kernel libraries. While recent large language models (LLMs) combined with evolutionary algorithms show promise in automatic kernel optimization, existing approaches often fall short in performance due to their suboptimal agent designs and mismatched evolution representations. This work identifies these mismatches and proposes cuPilot, a strategy-coordinated multi-agent framework that introduces strategy as an intermediate semantic representation for kernel evolution. Key contributions include a strategy-coordinated evolution algorithm, roofline-guided prompting, and strategy-level population initialization. Experimental results show that the generated kernels by cuPilot achieve an average speed up of 3.09$\times$ over PyTorch on a benchmark of 100 kernels. On the GEMM tasks, cuPilot showcases sophisticated optimizations and achieves high utilization of critical hardware units. The generated kernels are open-sourced at https://github.com/champloo2878/cuPilot-Kernels.git.
- Abstract(参考訳): ハードウェアとソフトウェアの共同設計の専門知識と高性能カーネルライブラリの独自性を必要とすることを考えると、CUDAカーネルの最適化は困難で労働集約的な作業である。
近年の大規模言語モデル (LLM) と進化的アルゴリズムが組み合わさって、カーネルの自動最適化が期待できる一方で、既存のアプローチは、最適なエージェント設計とミスマッチした進化表現のために、しばしば性能が低下する。
本研究はこれらのミスマッチを特定し,カーネル進化の中間的意味表現として戦略を導入する戦略協調型マルチエージェントフレームワークであるcuPilotを提案する。
主な貢献は、戦略協調進化アルゴリズム、屋上誘導プロンプト、戦略レベルの人口初期化である。
実験結果から、cuPilotが生成したカーネルは100カーネルのベンチマークで平均速度3.09$\times$ over PyTorchを達成した。
GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
生成されたカーネルはhttps://github.com/champloo2878/cuPilot-Kernels.gitでオープンソース化されている。
関連論文リスト
- Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems [1.2289544895833646]
マルチエージェントPyTorch最適化システムを比較するためのフレームワークを提案する。
エラー修正エージェントと組み合わせた場合,エクスプロイトヘビー戦略が最善であることを示す。
最も優れた実装は、H100 GPU上で平均2.88倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-11-21T05:37:38Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - Astra: A Multi-Agent System for GPU Kernel Performance Optimization [10.715861478214961]
我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。
Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
論文 参考訳(メタデータ) (2025-09-09T08:39:50Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Structural Kernel Search via Bayesian Optimization and Symbolical
Optimal Transport [5.1672267755831705]
ガウスのプロセスでは、カーネルの選択は重要なタスクであり、しばしば専門家が手動で行う。
本稿では,カーネル空間を包含する新しい効率的な探索法を提案する。
論文 参考訳(メタデータ) (2022-10-21T09:30:21Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。