論文の概要: Kernel Foundry: A Diagnosis-driven Evolutionary Kernel Optimizer with Multi-Experts
- arxiv url: http://arxiv.org/abs/2605.30359v1
- Date: Fri, 08 May 2026 03:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.48175
- Title: Kernel Foundry: A Diagnosis-driven Evolutionary Kernel Optimizer with Multi-Experts
- Title(参考訳): Kernel Foundry: マルチ専門家による診断駆動進化型カーネル最適化
- Authors: Zixuan Huang, Da Chen, Kecheng Huang, Lihao Yin, Xing Li, Huiling Zhen, Mingxuan Yuan, Zili Shao,
- Abstract要約: Kernel Foundryは、自動GPUカーネル最適化のための診断駆動の進化的フレームワークである。
KernelBenchの実験では、強いベースラインよりも精度と性能が一貫して向上していることが示されている。
- 参考スコア(独自算出の注目度): 29.878782850560132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-performance GPU kernels remains challenging due to the need for both correctness and hardware-aware optimization. While large language models (LLMs) show promise in code generation, they often fail to produce kernels that are both correct and efficient. We propose Kernel Foundry, a diagnosis-driven evolutionary framework for automatic GPU kernel optimization. Our method combines expert-guided, retrieval-augmented initialization with a multi-island evolutionary search, where candidate kernels are iteratively refined using structured diagnostic feedback. A centralized experience library accumulates reusable optimization knowledge to guide subsequent evolution, while explicit mechanisms prevent cheating behaviors that bypass kernel-level computation. Experiments on KernelBench show that our method consistently improves both correctness and performance over strong baselines, achieving up to 100% correctness on Level~2.
- Abstract(参考訳): 高性能GPUカーネルの生成は、正確性とハードウェア対応の最適化の両方を必要とするため、依然として困難である。
大きな言語モデル(LLM)はコード生成の約束を示すが、正確かつ効率的なカーネルの生成に失敗することが多い。
自動GPUカーネル最適化のための診断駆動進化フレームワークであるKernel Foundryを提案する。
提案手法は,専門家が指導し,検索を増強した初期化と,構造化された診断フィードバックを用いて,候補カーネルを反復的に洗練する多島間進化探索を組み合わせたものである。
集中型エクスペリエンスライブラリは再利用可能な最適化知識を蓄積し、その後の進化を導く一方、明示的なメカニズムはカーネルレベルの計算をバイパスする不正な動作を防ぐ。
KernelBenchの実験は、我々の手法が強いベースラインよりも常に正確さと性能を向上し、レベル~2で最大100%の正確性を達成することを示した。
関連論文リスト
- GPU Forecasters: Language Models as Selective Surrogates for Kernel Runtime Optimization [73.92934811090163]
カーネル評価のための選択的なGPUサロゲートとしてLLMがどのように機能するかを検討する。
限られたGPU測定予算下での高速カーネルの復旧に,その予測が正確で校正され,実用的に有用であるかどうかを計測する。
実験により,LLMは相対的なカーネル性能を正確に予測し,強化学習により性能を向上できることを示した。
論文 参考訳(メタデータ) (2026-05-29T15:56:08Z) - AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation [59.964989458924585]
AdaExploreは、パフォーマンスクリティカルなカーネルコード生成のための蓄積された実行フィードバックによる自己改善を可能にするエージェントフレームワークである。
適応段階では、エージェントはタスクを合成し、繰り返し発生する障害を有効ルールの再利用可能なメモリに変換する。
探索段階では、候補核を木として整理し、小さな局所精製とより大きな構造再生を交互に行う。
論文 参考訳(メタデータ) (2026-04-17T18:25:03Z) - Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization [48.656549870801285]
Kernel-Smithは高性能GPUカーネルと演算子生成のためのフレームワークである。
エージェント側では、Kernel-Smithは実行可能な候補の集団を維持し、反復的にそれらを改善している。
トレーニング側では、長距離進化軌道をステップ中心の監視と強化学習信号に変換する。
論文 参考訳(メタデータ) (2026-03-30T12:12:49Z) - KernelFoundry: Hardware-aware evolutionary GPU kernel optimization [9.20884368317651]
KernelFoundryは、GPUカーネルデザインスペースを効率的に探求する進化的フレームワークである。
KernelBench、堅牢なkbench、カスタムタスクでこのフレームワークを評価します。
提案手法は,SYCL における KernelBench の平均速度を2.3倍に向上する。
論文 参考訳(メタデータ) (2026-03-12T20:40:04Z) - KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta [8.852510847427164]
本稿では,深層学習レコメンデーションモデル(DLRM)のためのヘテロジニアス・スケールに対処するカーネル・カーネル・プログラミング・フレームワークKernelEvolveを提案する。
KernelEvolveは、カーネル仕様を入力とし、異種ハードウェアアーキテクチャにおける推奨モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。
我々は、KernelEvolveが開発時間を数週間から数時間に短縮し、PyTorchベースラインに対する大幅なパフォーマンス改善を、さまざまなプロダクションユースケースと、大規模な異種AIシステムに対して示す。
論文 参考訳(メタデータ) (2025-12-29T06:31:55Z) - cuPilot: A Strategy-Coordinated Multi-agent Framework for CUDA Kernel Evolution [15.701861287574296]
cuPilotは戦略協調型マルチエージェントフレームワークで、カーネル進化の中間的な意味表現として戦略を導入する。
GEMMタスクでは、cuPilotは高度な最適化を示し、重要なハードウェアユニットの高利用を実現する。
論文 参考訳(メタデータ) (2025-12-18T12:34:00Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。