論文の概要: FastKernels: Benchmarking GPU Kernel Generation in Production
- arxiv url: http://arxiv.org/abs/2605.23215v1
- Date: Fri, 22 May 2026 04:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.192842
- Title: FastKernels: Benchmarking GPU Kernel Generation in Production
- Title(参考訳): FastKernels: 運用時のGPUカーネル生成のベンチマーク
- Authors: Gabriele Oliaro, Yichao Fu, May Jiang, Owen Lu, Junli Wang, Zhihao Jia, Hao Zhang, Samyam Rajbhandari,
- Abstract要約: LLMベースのGPUカーネル生成エージェントは急速に進歩している。
しかし、彼らの進歩は最適化されたベンチマークによって制限されています。
Fast Kernelsはプロダクショングレードの推論フレームワークで、強化されたシステムと同等に動作する。
- 参考スコア(独自算出の注目度): 15.284289018908781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94$\times$ aggregate speedup over production baselines, with weaker agents at $0.78\times$ and $0.53\times$ -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels
- Abstract(参考訳): LLMベースのGPUカーネル生成エージェントは急速に進歩しているが、その進歩は最適化されたベンチマークによって根本的に制限されている。
既存のベンチマークは、単一のGPU上のカーネルを合成入力で評価し、周囲のコンパイルスタックを無視し、既知の最適化を新しいものを発見するのではなく、複製する。
エージェントはサンドボックスでよくスコアするカーネルを生成することを学習するが、インタフェースの非互換性、コンパイルとスタックの競合、実際のシステムに統合された際のサイレントな正しさの低下を導入する。
我々はFastKernelsという,HuggingFace Transformersアーキテクチャの96.2% (409/425)のカーネルを総称する,8つのカテゴリにまたがる46の代表的なアーキテクチャの最小セットを中心に構築されたカーネルベンチマークを紹介した。
FastKernelsは最小限のプロダクショングレードの推論フレームワークとして機能し、主要なLLMサービスではvLLMやSGLangのような強化されたシステムと同等に動作する。
FastKernelsで最先端のカーネルエージェントを評価すると、最強のエージェントでさえ、プロダクションベースラインよりも0.94$\times$アグリゲートスピードアップしか達成できず、弱いエージェントは0.78$と0.53$である。
我々はFastKernelsをカーネルエージェントへのステップストーンとしてリリースしました。
コードはhttps://github.com/Snowflake-AI-Research/fastkernelsで公開されている。
関連論文リスト
- Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization [48.656549870801285]
Kernel-Smithは高性能GPUカーネルと演算子生成のためのフレームワークである。
エージェント側では、Kernel-Smithは実行可能な候補の集団を維持し、反復的にそれらを改善している。
トレーニング側では、長距離進化軌道をステップ中心の監視と強化学習信号に変換する。
論文 参考訳(メタデータ) (2026-03-30T12:12:49Z) - SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits [33.140868197031985]
SOL-ExecBenchは、124生産モデルと新興AIモデルから抽出された235の最適化問題のベンチマークである。
SOLARによって計算された解析的導出光速度(SOL)境界に対して性能を測定する。
我々は、リリース定義スコアベースラインと、候補カーネルを閉じたハードウェアSOLとの間のギャップを定量化するSOLスコアを報告する。
論文 参考訳(メタデータ) (2026-03-19T17:30:02Z) - KernelFoundry: Hardware-aware evolutionary GPU kernel optimization [9.20884368317651]
KernelFoundryは、GPUカーネルデザインスペースを効率的に探求する進化的フレームワークである。
KernelBench、堅牢なkbench、カスタムタスクでこのフレームワークを評価します。
提案手法は,SYCL における KernelBench の平均速度を2.3倍に向上する。
論文 参考訳(メタデータ) (2026-03-12T20:40:04Z) - KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware [25.808580418841718]
新しいAIアクセラレータは、しばしば開発者が手動で低レベルのカーネルを作る必要がある。
これにより、新興ハードウェアプラットフォームが市場に到達するのを効果的に防ぐことができる。
KernelCraftは、エージェントがカスタマイズされたアクセラレーターのために低レベルのカーネルを生成し最適化する能力を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-02-10T14:52:02Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - PRAGMA: A Profiling-Reasoned Multi-Agent Framework for Automatic Kernel Optimization [12.24680414520151]
PRAGMAはプロファイル誘導型AIカーネル生成フレームワークである。
実行フィードバックとハードウェアの詳細なプロファイリングを推論ループに統合する。
我々は、GPUとCPUバックエンドをカバーするKernelBench上でPRAGMAを評価する。
論文 参考訳(メタデータ) (2025-11-09T12:01:43Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。