論文の概要: Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
- arxiv url: http://arxiv.org/abs/2603.28342v1
- Date: Mon, 30 Mar 2026 12:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.378254
- Title: Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
- Title(参考訳): Kernel-Smith:進化的カーネル最適化のための統一レシピ
- Authors: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen,
- Abstract要約: Kernel-Smithは高性能GPUカーネルと演算子生成のためのフレームワークである。
エージェント側では、Kernel-Smithは実行可能な候補の集団を維持し、反復的にそれらを改善している。
トレーニング側では、長距離進化軌道をステップ中心の監視と強化学習信号に変換する。
- 参考スコア(独自算出の注目度): 48.656549870801285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.
- Abstract(参考訳): 本稿では,高性能GPUカーネルと演算子生成のためのフレームワークであるKernel-Smithについて述べる。
エージェント側では、Kernel-Smithは実行可能な候補の集団を維持し、コンパイル、正確性、スピードアップに関する構造化された実行フィードバックとともに、トップパフォーマンスで多様なプログラムのアーカイブを使用して反復的にそれらを改善している。
この検索を信頼性のあるものにするために、GPU GPU上でTriton、MetaX GPU上でMacaのバックエンド固有の評価サービスを構築します。
トレーニング側では、長軸の進化軌跡をステップ中心の監視・強化学習信号に変換し、精度を保った高利得リビジョンを保ちながら、モデルがワンショットジェネレータではなく進化ループ内の強力な局所改善器として最適化されるようにした。
統一された進化的プロトコルの下で、Kernel-Smith-235B-RLはNvidia TritonバックエンドでKernelBench上での最先端の全体的なパフォーマンスを実現し、Gemini-3.0-proやClaude-4.6-opusといったフロンティアプロプライエタリモデルよりも優れた平均スピードアップ比を達成した。
我々はさらに、MetaX MACAバックエンドのフレームワークを検証する。私たちのKernel-Smith-MACA-30Bは、DeepSeek-V3.2-thinkやQwen3-235B-2507-thinkのような大規模なフレームワークを超え、異種プラットフォーム間のシームレスな適応の可能性を強調している。
ベンチマーク結果以外にも、同じワークフローがSGLangやLMDeployといったプロダクションシステムへのアップストリームコントリビューションを生成し、LLM駆動のカーネル最適化が制御された評価から実用的なデプロイメントへ移行可能であることを実証している。
関連論文リスト
- KernelFoundry: Hardware-aware evolutionary GPU kernel optimization [9.20884368317651]
KernelFoundryは、GPUカーネルデザインスペースを効率的に探求する進化的フレームワークである。
KernelBench、堅牢なkbench、カスタムタスクでこのフレームワークを評価します。
提案手法は,SYCL における KernelBench の平均速度を2.3倍に向上する。
論文 参考訳(メタデータ) (2026-03-12T20:40:04Z) - Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis [68.7701048879757]
EvoKernelは、カーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークである。
ステージ固有のQ値を学び、現在の目標への貢献に基づいて経験を優先する。
モデルの正しさを11.0%から83.0%に改善し、初期ドラフトよりも3.60倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:06Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model [57.440609834690385]
既存のアプローチでは、進化ループ内の高速コードジェネレータとして、LLM(Large Language Models)を扱います。
我々は,共進化的世界モデルによる検索を提案し,この手法に基づいてK-Searchを構築する。
GQA, MLA, MoE カーネルを含む多種多様な複雑なカーネル上で K-Search を評価する。
論文 参考訳(メタデータ) (2026-02-22T11:06:22Z) - KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta [8.852510847427164]
本稿では,深層学習レコメンデーションモデル(DLRM)のためのヘテロジニアス・スケールに対処するカーネル・カーネル・プログラミング・フレームワークKernelEvolveを提案する。
KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。
我々は、KernelEvolveが開発時間を数週間から数時間に短縮し、PyTorchベースラインに対する大幅なパフォーマンス改善を、さまざまなプロダクションユースケースと、大規模な異種AIシステムに対して示す。
論文 参考訳(メタデータ) (2025-12-29T06:31:55Z) - cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution [15.701861287574296]
cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。
GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
論文 参考訳(メタデータ) (2025-12-18T12:34:00Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。