論文の概要: KernelFoundry: Hardware-aware evolutionary GPU kernel optimization
- arxiv url: http://arxiv.org/abs/2603.12440v1
- Date: Thu, 12 Mar 2026 20:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.759239
- Title: KernelFoundry: Hardware-aware evolutionary GPU kernel optimization
- Title(参考訳): KernelFoundry: ハードウェア対応の進化的GPUカーネル最適化
- Authors: Nina Wiedemann, Quentin Leboutet, Michael Paulitsch, Diana Wofk, Benjamin Ummenhofer,
- Abstract要約: KernelFoundryは、GPUカーネルデザインスペースを効率的に探求する進化的フレームワークである。
KernelBench、堅牢なkbench、カスタムタスクでこのフレームワークを評価します。
提案手法は,SYCL における KernelBench の平均速度を2.3倍に向上する。
- 参考スコア(独自算出の注目度): 9.20884368317651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing GPU kernels presents a significantly greater challenge for large language models (LLMs) than standard code generation tasks, as it requires understanding hardware architecture, parallel optimization strategies, and performance profiling outputs. Most existing LLM-based approaches to kernel generation rely on simple prompting and feedback loops, incorporating hardware awareness only indirectly through profiling feedback. We introduce KernelFoundry, an evolutionary framework that efficiently explores the GPU kernel design space through three key mechanisms: (1) MAP-Elites quality-diversity search with kernel-specific behavioral dimensions to sustain exploration across diverse optimization strategies; (2) meta-prompt evolution, which co-evolves prompts with kernels to uncover task-specific optimization strategies, and (3) template-based parameter optimization to tune kernels to inputs and hardware. We evaluate this framework on KernelBench, robust-kbench, and custom tasks, generating SYCL kernels as a cross-platform GPU programming model and CUDA kernels for comparison to prior work. Our approach consistently outperforms the baseline methods, achieving an average speedup of 2.3x on KernelBench for SYCL. Moreover, KernelFoundry is implemented as a distributed framework with remote access to diverse hardware, enabling rapid benchmarking and featuring a flexible user input layer that supports kernel generation for a wide range of real-world use cases beyond benchmarking.
- Abstract(参考訳): GPUカーネルの最適化は、ハードウェアアーキテクチャ、並列最適化戦略、パフォーマンスプロファイリング出力の理解を必要とするため、一般的なコード生成タスクよりも大きな言語モデル(LLM)において、はるかに大きな課題となる。
既存のLLMベースのカーネル生成アプローチは、単純なプロンプトとフィードバックループに依存しており、プロファイリングフィードバックを通じてハードウェアの認識を間接的に取り入れている。
本稿では,(1) MAP-Elites quality-diversity search with kernel-specific behavioral dimensions to maintain exploration across various optimization strategy, (2) meta-prompt evolution, (2) meta-prompt evolution, (3) カーネルを入力やハードウェアにチューニングするためのテンプレートベースのパラメータ最適化。
我々は,KernelBench,ロバストkbench,カスタムタスク上で,SYCLカーネルをクロスプラットフォームGPUプログラミングモデルとして生成し,CUDAカーネルを以前の作業と比較して評価した。
提案手法は,SYCL に対して KernelBench 上で平均2.3倍の高速化を達成するため,ベースライン法より一貫して優れる。
さらに、KernelFoundryは、さまざまなハードウェアにリモートアクセス可能な分散フレームワークとして実装されており、高速なベンチマークを可能にし、ベンチマーク以外のさまざまな実世界のユースケースでカーネル生成をサポートするフレキシブルなユーザ入力層を備えている。
関連論文リスト
- K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。
我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。
GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文 参考訳(メタデータ) (2026-02-22T11:06:22Z) - KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta [8.852510847427164]
本稿では,深層学習レコメンデーションモデル(DLRM)のためのヘテロジニアス・スケールに対処するカーネル・カーネル・プログラミング・フレームワークKernelEvolveを提案する。
KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。
我々は、KernelEvolveが開発時間を数週間から数時間に短縮し、PyTorchベースラインに対する大幅なパフォーマンス改善を、さまざまなプロダクションユースケースと、大規模な異種AIシステムに対して示す。
論文 参考訳(メタデータ) (2025-12-29T06:31:55Z) - cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution [15.701861287574296]
cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。
GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
論文 参考訳(メタデータ) (2025-12-18T12:34:00Z) - KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit [15.810081332925584]
KernelBandは、カーネル最適化を階層的な多重武装バンディット問題として定式化する新しいフレームワークである。
我々はKernelBandが最先端の手法よりも優れており、より少ないトークンで優れた性能を実現し、計算資源の増加とともに飽和を伴わずに一貫した改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-24T08:11:50Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。