論文の概要: AscendCraft: Automatic Ascend NPU Kernel Generation via DSL-Guided Transcompilation
- arxiv url: http://arxiv.org/abs/2601.22760v1
- Date: Fri, 30 Jan 2026 09:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.356247
- Title: AscendCraft: Automatic Ascend NPU Kernel Generation via DSL-Guided Transcompilation
- Title(参考訳): AscendCraft: DSL-Guided Transcompilationによる自動Ascend NPUカーネル生成
- Authors: Zhongzhen Wen, Shudi Shao, Zhong Li, Yu Ge, Tongtong Xu, Yuanyi Lin, Tian Zhang,
- Abstract要約: 本稿では,自動アセンドCカーネル生成のためのDSL誘導型アプローチであるAscendCraftを提案する。
AscendingCraftは98.1%のコンパイル成功と90.4%の機能的正しさを達成した。
また、DSL誘導トランスコンパイルにより、LLMが正しいNPUカーネルと競合するNPUカーネルの両方を生成することができることを示す。
- 参考スコア(独自算出の注目度): 8.878393510726008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of deep learning models critically depends on efficient kernel implementations, yet developing high-performance kernels for specialized accelerators remains time-consuming and expertise-intensive. While recent work demonstrates that large language models (LLMs) can generate correct and performant GPU kernels, kernel generation for neural processing units (NPUs) remains largely underexplored due to domain-specific programming models, limited public examples, and sparse documentation. Consequently, directly generating AscendC kernels with LLMs yields extremely low correctness, highlighting a substantial gap between GPU and NPU kernel generation. We present AscendCraft, a DSL-guided approach for automatic AscendC kernel generation. AscendCraft introduces a lightweight DSL that abstracts non-essential complexity while explicitly modeling Ascend-specific execution semantics. Kernels are first generated in the DSL using category-specific expert examples and then transcompiled into AscendC through structured, constraint-driven LLM lowering passes. Evaluated on MultiKernelBench across seven operator categories, AscendCraft achieves 98.1% compilation success and 90.4% functional correctness. Moreover, 46.2% of generated kernels match or exceed PyTorch eager execution performance, demonstrating that DSL-guided transcompilation can enable LLMs to generate both correct and competitive NPU kernels. Beyond benchmarks, AscendCraft further demonstrates its generality by successfully generating two correct kernels for newly proposed mHC architecture, achieving performance that substantially surpasses PyTorch eager execution.
- Abstract(参考訳): ディープラーニングモデルの性能は、効率的なカーネルの実装に大きく依存するが、特別なアクセラレーターのための高性能カーネルの開発は、時間と専門性に重点を置いている。
最近の研究は、大きな言語モデル(LLM)が正しいパフォーマンスのGPUカーネルを生成することを実証しているが、ニューラルネットワークユニット(NPU)のカーネル生成は、ドメイン固有のプログラミングモデル、限られた公開例、スパースドキュメンテーションのために、ほとんど未調査のままである。
したがって、直接LLMでAscendCカーネルを生成すると、非常に低い精度でGPUとNPUのカーネル生成の間に大きなギャップが生じる。
本稿では,自動アセンドCカーネル生成のためのDSL誘導型アプローチであるAscendCraftを提案する。
AscendCraftは、Ascend固有の実行セマンティクスを明示的にモデリングしながら、非意味的な複雑さを抽象化する軽量DSLを導入した。
カーネルは最初、カテゴリ固有の専門家の例を使ってDSLで生成され、構造化された制約駆動のLSMローディングパスを通じてAscendCにトランスコンパイルされる。
8つの演算子カテゴリでMultiKernelBenchを評価すると、AscendCraftは98.1%のコンパイル成功と90.4%の機能的正しさを達成した。
さらに、生成したカーネルの46.2%がPyTorchの熱心な実行性能に適合し、DSL誘導トランスコンパイルによりLLMが正しいNPUカーネルと競合するNPUカーネルの両方を生成することができることを示した。
ベンチマーク以外にも、AscendCraftは、新しく提案されたmHCアーキテクチャのために2つの正しいカーネルを正常に生成し、PyTorchの熱心な実行を大幅に上回るパフォーマンスを達成することで、その汎用性を実証している。
関連論文リスト
- AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units [39.846358001824996]
我々は,NPUカーネル開発のための世代評価統合フレームワークAscend KernelGenを提案する。
本稿では,実世界のカーネル実装から派生したチェーン・オブ・シント推論を取り入れた高品質なデータセットAscend-CoTを紹介する。
NPU KernelBenchも設計しています。これは、様々な複雑さレベルにわたるコンパイル、正確性、パフォーマンスを評価するための包括的なベンチマークです。
論文 参考訳(メタデータ) (2026-01-12T03:12:58Z) - Library Liberation: Competitive Performance Matmul Through Compiler-composed Nanokernels [37.00431889602245]
本稿では,スケーラブルで高性能なマイクロカーネルを自動生成するコンパイル方式を提案する。
本手法は,ベクトルおよびタイルベースのCPU命令をサポートするMLIRベースのコンパイラで実装する。
実験の結果、生成したナノカーネルは生産品質が高く、最先端のマイクロカーネルライブラリと競合することがわかった。
論文 参考訳(メタデータ) (2025-11-14T14:32:28Z) - Astra: A Multi-Agent System for GPU Kernel Performance Optimization [10.715861478214961]
我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。
Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
論文 参考訳(メタデータ) (2025-09-09T08:39:50Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。