論文の概要: KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware
- arxiv url: http://arxiv.org/abs/2603.08721v1
- Date: Tue, 10 Feb 2026 14:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.492973
- Title: KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware
- Title(参考訳): KernelCraft: 新興ハードウェア上でのエージェント間近接カーネル生成のためのベンチマーク
- Authors: Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren Zhao,
- Abstract要約: 新しいAIアクセラレータは、しばしば開発者が手動で低レベルのカーネルを作る必要がある。
これにより、新興ハードウェアプラットフォームが市場に到達するのを効果的に防ぐことができる。
KernelCraftは、エージェントがカスタマイズされたアクセラレーターのために低レベルのカーネルを生成し最適化する能力を評価する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 25.808580418841718
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: New AI accelerators with novel instruction set architectures (ISAs) often require developers to manually craft low-level kernels -- a time-consuming, laborious, and error-prone process that cannot scale across diverse hardware targets. This prevents emerging hardware platforms from reaching the market efficiently. While prior LLM-based code generation has shown promise in mature GPU ecosystems, it remains unclear whether agentic LLM systems can quickly produce valid and efficient kernels for emerging hardware with new ISAs. We present KernelCraft: the first benchmark to evaluate an LLM agent's ability to generate and optimize low-level kernels for customized accelerators via a function-calling, feedback-driven workflow. Within KernelCraft, the agent refines kernels under ISA and hardware constraints using automated feedback derived from compilation checks, simulation, and correctness validation against ground truth. In our experiments, we assess agent performance across three emerging accelerator platforms on more than 20 ML tasks, each with 5 diverse task configurations, with special evaluation of task configuration complexity. Across four leading reasoning models, top agents produce functionally valid kernels for previously unseen ISAs within a few refinement steps, with optimized kernels that match or outperform template-based compiler baselines. With that, we demonstrate the potential for reducing the cost of kernel development for accelerator designers and kernel developers.
- Abstract(参考訳): 新しい命令セットアーキテクチャ(ISA)を備えたAIアクセラレータは、開発者が手動で低レベルのカーネルを作る必要があることが多い。
これにより、新興ハードウェアプラットフォームが市場に到達するのを効果的に防ぐことができる。
従来のLLMベースのコード生成は、成熟したGPUエコシステムにおいて有望であることを示しているが、エージェント型LLMシステムが新しいISAを持つ新興ハードウェアの有効かつ効率的なカーネルを迅速に生成できるかどうかは不明だ。
我々は,LLMエージェントが関数呼び出し,フィードバック駆動のワークフローを通じて,カスタマイズされたアクセラレータ用の低レベルカーネルを生成し,最適化する能力を評価する最初のベンチマークであるKernelCraftを紹介する。
KernelCraft内では、ISAおよびハードウェア制約の下でカーネルを洗練し、コンパイルチェック、シミュレーション、地平に対する正当性検証から自動でフィードバックする。
実験では,3つの新興アクセラレータプラットフォーム上でのエージェント性能を20以上のMLタスクで評価し,それぞれ5つのタスク構成を持ち,タスク構成の複雑さを特別に評価した。
4つの主要な推論モデル全体で、トップエージェントは、テンプレートベースのコンパイラのベースラインにマッチまたは上向く最適化されたカーネルを使用して、いくつかの改善ステップで、以前は見つからなかったISAに対して機能的に有効なカーネルを生成する。
これにより、アクセラレーターデザイナやカーネルディベロッパのカーネル開発コストを削減できる可能性を示す。
関連論文リスト
- Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis [68.7701048879757]
EvoKernelは、カーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークである。
ステージ固有のQ値を学び、現在の目標への貢献に基づいて経験を優先する。
モデルの正しさを11.0%から83.0%に改善し、初期ドラフトよりも3.60倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:06Z) - AscendCraft: Automatic Ascend NPU Kernel Generation via DSL-Guided Transcompilation [8.878393510726008]
本稿では,自動アセンドCカーネル生成のためのDSL誘導型アプローチであるAscendCraftを提案する。
AscendingCraftは98.1%のコンパイル成功と90.4%の機能的正しさを達成した。
また、DSL誘導トランスコンパイルにより、LLMが正しいNPUカーネルと競合するNPUカーネルの両方を生成することができることを示す。
論文 参考訳(メタデータ) (2026-01-30T09:34:59Z) - Towards Automated Kernel Generation in the Era of LLMs [17.69471168609145]
カーネルエンジニアリングは時間がかかり、スケールできないプロセスです。
大規模言語モデル(LLM)やエージェントシステムの最近の進歩は、カーネル生成と最適化を自動化する新しい可能性を開いた。
フィールドは断片化され続けており、LLM駆動のカーネル生成の体系的な視点が欠如している。
論文 参考訳(メタデータ) (2026-01-22T07:53:52Z) - AKG kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis [13.239454996851771]
現代のAIモデルは高性能な計算カーネルを必要とする。
Akgカーネルエージェント(AI駆動のカーネルジェネレータ)は複数のドメイン固有言語をサポートするように設計されている。
システムのモジュール設計により、バックエンドDSLとハードウェアターゲットの迅速な統合が可能になる。
システムはPyTorch Eagerベースライン上で平均1.46ドルのスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-29T12:42:05Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux Kernel Patches Across Versions [53.811953357289866]
大規模言語モデル(LLM)は、様々な領域で顕著な進歩を示している。
LLMは不完全なコードコンテキスト理解と不正確なマイグレーションポイント識別に苦労する。
MigGPTは、コードスニペット情報を保持するために新しいコード指紋構造を使用するフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T08:08:37Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。