論文の概要: AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units
- arxiv url: http://arxiv.org/abs/2601.07160v1
- Date: Mon, 12 Jan 2026 03:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.193154
- Title: AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units
- Title(参考訳): AscendKernelGen:ニューラル処理ユニットのためのLLMに基づくカーネル生成の体系的研究
- Authors: Xinzi Cao, Jianyang Zhai, Pengfei Li, Zhiheng Hu, Cen Yan, Bingxu Mu, Guanghuan Fang, Bin She, Jiayu Li, Yihan Su, Dongyang Tao, Xiansong Huang, Fan Xu, Feidiao Yang, Yao Lu, Chang-Dong Wang, Yutong Lu, Weicheng Xue, Bin Zhou, Yonghong Tian,
- Abstract要約: 我々は,NPUカーネル開発のための世代評価統合フレームワークAscend KernelGenを提案する。
本稿では,実世界のカーネル実装から派生したチェーン・オブ・シント推論を取り入れた高品質なデータセットAscend-CoTを紹介する。
NPU KernelBenchも設計しています。これは、様々な複雑さレベルにわたるコンパイル、正確性、パフォーマンスを評価するための包括的なベンチマークです。
- 参考スコア(独自算出の注目度): 39.846358001824996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To meet the ever-increasing demand for computational efficiency, Neural Processing Units (NPUs) have become critical in modern AI infrastructure. However, unlocking their full potential requires developing high-performance compute kernels using vendor-specific Domain-Specific Languages (DSLs), a task that demands deep hardware expertise and is labor-intensive. While Large Language Models (LLMs) have shown promise in general code generation, they struggle with the strict constraints and scarcity of training data in the NPU domain. Our preliminary study reveals that state-of-the-art general-purpose LLMs fail to generate functional complex kernels for Ascend NPUs, yielding a near-zero success rate. To address these challenges, we propose AscendKernelGen, a generation-evaluation integrated framework for NPU kernel development. We introduce Ascend-CoT, a high-quality dataset incorporating chain-of-thought reasoning derived from real-world kernel implementations, and KernelGen-LM, a domain-adaptive model trained via supervised fine-tuning and reinforcement learning with execution feedback. Furthermore, we design NPUKernelBench, a comprehensive benchmark for assessing compilation, correctness, and performance across varying complexity levels. Experimental results demonstrate that our approach significantly bridges the gap between general LLMs and hardware-specific coding. Specifically, the compilation success rate on complex Level-2 kernels improves from 0% to 95.5% (Pass@10), while functional correctness achieves 64.3% compared to the baseline's complete failure. These results highlight the critical role of domain-specific reasoning and rigorous evaluation in automating accelerator-aware code generation.
- Abstract(参考訳): 計算効率の継続的な需要を満たすため、ニューラルネットワークユニット(NPU)は現代のAIインフラにおいて重要になっている。
しかし、その潜在能力を最大限に活用するには、ベンダー固有のドメイン特化言語(DSL)を使用して高性能な計算カーネルを開発する必要がある。
LLM(Large Language Models)は、一般的なコード生成において有望であるが、NPUドメインにおけるトレーニングデータの厳密な制約と不足に苦慮している。
我々の予備研究は、最先端の汎用LLMがAscend NPUのための機能的複素カーネルを生成できず、ほぼゼロの成功率が得られることを示した。
これらの課題に対処するため,NPUカーネル開発のための世代評価統合フレームワークAscendKernelGenを提案する。
本稿では,実世界のカーネル実装から派生した連鎖推論を取り入れた高品質なデータセットであるAscend-CoTと,教師付き微調整および強化学習による訓練によるドメイン適応モデルであるKernelGen-LMを紹介する。
さらに, NPUKernelBenchは, 様々な複雑性レベルにわたるコンパイル, 正確性, 性能を評価するための総合的なベンチマークである。
実験により,本手法は一般LLMとハードウェア固有の符号化のギャップを著しく埋めることを示した。
具体的には、複雑なレベル2カーネルのコンパイル成功率は0%から95.5%に改善され(Pass@10)、機能的正しさはベースラインの完全な失敗と比べて64.3%向上した。
これらの結果は、アクセル対応コード生成の自動化において、ドメイン固有の推論と厳密な評価の重要性を強調している。
関連論文リスト
- QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - ConCuR: Conciseness Makes State-of-the-Art Kernel Generation [5.010229074860956]
カーネル生成の主な課題は、高品質なデータの不足である。
我々は,高品質なカーネルを推論トレースで生成し,キュレートするパイプラインを開発した。
本稿では,カーネル生成タスクの難易度を評価する指標として,平均推論長が有効であることを示す。
論文 参考訳(メタデータ) (2025-10-08T15:41:15Z) - Evolution of Kernels: Automated RISC-V Kernel Optimization with Large Language Models [26.985412258634256]
大規模言語モデル(LLM)は、自動化されたカーネル最適化の約束を示し、包括的な技術ドキュメントと成熟した不足を伴うドメインの成功を示している。
本稿では,LLMベースの進化的プログラム検索フレームワークであるEvolution of Kernels(EoK)について紹介する。
EoKは中央値1.27倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-14T08:11:06Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。