論文の概要: Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis
- arxiv url: http://arxiv.org/abs/2603.10846v1
- Date: Wed, 11 Mar 2026 14:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.010769
- Title: Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis
- Title(参考訳): コールドスタートドラフトと連続精製に向けて:NPUカーネル合成への価値駆動メモリアプローチ
- Authors: Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen,
- Abstract要約: EvoKernelは、カーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークである。
ステージ固有のQ値を学び、現在の目標への貢献に基づいて経験を優先する。
モデルの正しさを11.0%から83.0%に改善し、初期ドラフトよりも3.60倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 68.7701048879757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Large Language Models to data-scarce programming domains poses significant challenges, particularly for kernel synthesis on emerging Domain-Specific Architectures where a "Data Wall" limits available training data. While models excel on data-rich platforms like CUDA, they suffer catastrophic performance drops on data-scarce ecosystems such as NPU programming. To overcome this cold-start barrier without expensive fine-tuning, we introduce EvoKernel, a self-evolving agentic framework that automates the lifecycle of kernel synthesis from initial drafting to continual refining. EvoKernel addresses this by formulating the synthesis process as a memory-based reinforcement learning task. Through a novel value-driven retrieval mechanism, it learns stage-specific Q-values that prioritize experiences based on their contribution to the current objective, whether bootstrapping a feasible draft or iteratively refining latency. Furthermore, by enabling cross-task memory sharing, the agent generalizes insights from simple to complex operators. By building an NPU variant of KernelBench and evaluating on it, EvoKernel improves frontier models' correctness from 11.0% to 83.0% and achieves a median speedup of 3.60x over initial drafts through iterative refinement. This demonstrates that value-guided experience accumulation allows general-purpose models to master the kernel synthesis task on niche hardware ecosystems. Our official page is available at https://evokernel.zhuo.li.
- Abstract(参考訳): 大規模言語モデルをデータスカースプログラミングドメインにデプロイすることは、特に"Data Wall"が利用可能なトレーニングデータを制限している新興のDomain-Specific Architectures上でのカーネル合成において、大きな課題となる。
CUDAのようなデータ豊富なプラットフォームではモデルが優れているが、NPUプログラミングのようなデータ共有エコシステムでは壊滅的なパフォーマンス低下が発生している。
このコールドスタート障壁を、高価な微調整なしで克服するために、初期ドラフトから連続精製までのカーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークであるEvoKernelを紹介します。
EvoKernelは、合成プロセスをメモリベースの強化学習タスクとして定式化することで、この問題に対処する。
新たな価値駆動型検索機構を通じて、実行可能なドラフトをブートストラップするか、あるいは繰り返し精錬するかに関わらず、現在の目標への貢献に基づいて、経験を優先するステージ固有のQ値を学ぶ。
さらに、クロスタスクメモリ共有を有効にすることで、エージェントは単純な演算子から複雑な演算子への洞察を一般化する。
KernelBench の NPU 版を構築して評価することにより、EvoKernel はフロンティアモデルの正しさを 11.0% から 83.0% に改善し、反復的な改善によって初期ドラフトの3.60倍の中央値のスピードアップを達成する。
これは、価値誘導エクスペリエンスの蓄積により、ニッチなハードウェアエコシステム上でのカーネル合成タスクを汎用モデルでマスターできることを実証する。
公式ページはhttps://evokernel.zhuo.li.comで公開されている。
関連論文リスト
- Towards Automated Kernel Generation in the Era of LLMs [17.69471168609145]
カーネルエンジニアリングは時間がかかり、スケールできないプロセスです。
大規模言語モデル(LLM)やエージェントシステムの最近の進歩は、カーネル生成と最適化を自動化する新しい可能性を開いた。
フィールドは断片化され続けており、LLM駆動のカーネル生成の体系的な視点が欠如している。
論文 参考訳(メタデータ) (2026-01-22T07:53:52Z) - AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing Units [39.846358001824996]
我々は,NPUカーネル開発のための世代評価統合フレームワークAscend KernelGenを提案する。
本稿では,実世界のカーネル実装から派生したチェーン・オブ・シント推論を取り入れた高品質なデータセットAscend-CoTを紹介する。
NPU KernelBenchも設計しています。これは、様々な複雑さレベルにわたるコンパイル、正確性、パフォーマンスを評価するための包括的なベンチマークです。
論文 参考訳(メタデータ) (2026-01-12T03:12:58Z) - From RISC-V Cores to Neuromorphic Arrays: A Tutorial on Building Scalable Digital Neuromorphic Processors [0.37863160479533026]
デジタルニューロモルフィックプロセッサは、低消費電力常時オンのEdgeAIアプリケーションのための有望なコンピューティング基板として登場しつつある。
本チュートリアルでは,完全ディジタルニューロモルフィックプロセッサのアーキテクチャ設計原理について概説する。
論文 参考訳(メタデータ) (2025-11-27T14:14:23Z) - ConCuR: Conciseness Makes State-of-the-Art Kernel Generation [5.010229074860956]
カーネル生成の主な課題は、高品質なデータの不足である。
我々は,高品質なカーネルを推論トレースで生成し,キュレートするパイプラインを開発した。
本稿では,カーネル生成タスクの難易度を評価する指標として,平均推論長が有効であることを示す。
論文 参考訳(メタデータ) (2025-10-08T15:41:15Z) - TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。