論文の概要: KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta
- arxiv url: http://arxiv.org/abs/2512.23236v2
- Date: Tue, 30 Dec 2025 19:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.625501
- Title: KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta
- Title(参考訳): KernelEvolve: 異種AIアクセラレータをメタでスケーリングするエージェントカーネルコーディング
- Authors: Gang Liao, Hongsen Qin, Ying Wang, Alicia Golden, Michael Kuchnik, Yavuz Yetim, Jia Jiunn Ang, Chunli Fu, Yihan He, Samuel Hsia, Zewei Jiang, Dianshi Li, Uladzimir Pashkevich, Varna Puvvada, Feng Shi, Matt Steiner, Ruichao Xiao, Nathan Yan, Xiayu Yu, Zhou Fang, Abdul Zainul-Abedin, Ketan Singh, Hongtao Yu, Wenyuan Chi, Barney Huang, Sean Zhang, Noah Weller, Zach Marine, Wyatt Cook, Carole-Jean Wu, Gaoxiang Liu,
- Abstract要約: 本稿では,深層学習レコメンデーションモデル(DLRM)のためのヘテロジニアス・スケールに対処するカーネル・カーネル・プログラミング・フレームワークKernelEvolveを提案する。
KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。
我々は、KernelEvolveが開発時間を数週間から数時間に短縮し、PyTorchベースラインに対する大幅なパフォーマンス改善を、さまざまなプロダクションユースケースと、大規模な異種AIシステムに対して示す。
- 参考スコア(独自算出の注目度): 8.852510847427164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making deep learning recommendation model (DLRM) training and inference fast and efficient is important. However, this presents three key system challenges - model architecture diversity, kernel primitive diversity, and hardware generation and architecture heterogeneity. This paper presents KernelEvolve-an agentic kernel coding framework-to tackle heterogeneity at-scale for DLRM. KernelEvolve is designed to take kernel specifications as input and automate the process of kernel generation and optimization for recommendation model across heterogeneous hardware architectures. KernelEvolve does so by operating at multiple programming abstractions, from Triton and CuTe DSL to low-level hardware agnostic languages, spanning the full hardware-software optimization stack. The kernel optimization process is described as graph-based search with selection policy, universal operator, fitness function, and termination rule, dynamically adapts to runtime execution context through retrieval-augmented prompt synthesis. We designed, implemented, and deployed KernelEvolve to optimize a wide variety of production recommendation models across generations of NVIDIA and AMD GPUs, as well as Meta's AI accelerators. We validate KernelEvolve on the publicly-available KernelBench suite, achieving 100% pass rate on all 250 problems across three difficulty levels, and 160 PyTorch ATen operators across three heterogeneous hardware platforms, demonstrating 100% correctness. KernelEvolve reduces development time from weeks to hours and achieves substantial performance improvements over PyTorch baselines across diverse production use cases and for heterogeneous AI systems at-scale. Beyond performance efficiency improvements, KernelEvolve significantly mitigates the programmability barrier for new AI hardware by enabling automated kernel generation for in-house developed AI hardware.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)のトレーニングと推論を迅速かつ効率的に行うことが重要である。
モデルアーキテクチャの多様性、カーネルプリミティブの多様性、ハードウェア生成とアーキテクチャの不均一性である。
本稿では,DLRMのためのエージェントカーネルコーディングフレームワークであるKernelEvolveについて述べる。
KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。
KernelEvolveは、TritonやCuTe DSLから低レベルのハードウェア非依存言語まで、複数のプログラミング抽象化で運用することで実現しています。
カーネル最適化プロセスは、選択ポリシー、ユニバーサル演算子、フィットネス関数、終了規則によるグラフベースの探索として記述され、検索強化されたプロンプト合成により実行環境に動的に適応する。
我々はKernelEvolveを設計、実装、デプロイし、NVIDIAとAMDのGPUとMetaのAIアクセラレーターにまたがる幅広いプロダクションレコメンデーションモデルを最適化した。
我々は、KernelBenchスイート上でKernelEvolveを検証し、3つの困難レベルにわたる250のすべての問題に対して100%パスレートを達成するとともに、3つの異種ハードウェアプラットフォームにわたる160のPyTorch ATen演算子に対して100%の正確性を示す。
KernelEvolveは開発時間を数週間から数時間に短縮し、PyTorchベースラインのさまざまな運用ユースケースと、大規模な異種AIシステムに対して、大幅なパフォーマンス向上を実現している。
パフォーマンス効率の改善に加えて、KernelEvolveは、社内で開発されたAIハードウェアのカーネル自動生成を有効にすることにより、新しいAIハードウェアのプログラム可能性障壁を大幅に軽減する。
関連論文リスト
- cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution [15.701861287574296]
cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。
GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
論文 参考訳(メタデータ) (2025-12-18T12:34:00Z) - TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization [24.065109818256605]
TritonForgeは、GPUカーネルの自動最適化のためのプロファイリング誘導フレームワークである。
カーネル分析、ランタイムプロファイリング、反復的なコード変換を統合し、プロセスを合理化します。
ベースライン実装よりも最大5倍のパフォーマンス向上を実現し、ケースの1.76倍が成功している。
論文 参考訳(メタデータ) (2025-12-09T23:44:35Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - Geak: Introducing Triton Kernel AI Agent & Evaluation Benchmarks [11.253534066141668]
パフォーマンスと生産性の要求を満たすため、低レベルのカーネル開発を自動化することが不可欠である。
主要なクラウドプロバイダ、半導体企業、研究機関は現在、GPUのためのAI駆動コード生成に多大な投資をしている。
本稿では,TritonベースのGPUカーネルとGAAK(効率的なAI中心GPUカーネルの生成)の評価スイートを提案する。
論文 参考訳(メタデータ) (2025-07-31T02:26:58Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。