論文の概要: KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels
- arxiv url: http://arxiv.org/abs/2605.04956v2
- Date: Mon, 11 May 2026 05:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.372618
- Title: KernelBenchX: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels
- Title(参考訳): KernelBenchX: LLM生成GPUカーネル評価のための総合ベンチマーク
- Authors: Han Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu,
- Abstract要約: LLMベースのTritonカーネル生成は大きな関心を集めているが、基本的な実験的な疑問は未解決のままである。
本稿では,その正しさとハードウェア効率のカテゴリ認識による評価を通じて,この問題に対処するためのベンチマークであるKernelBenchXを提案する。
- 参考スコア(独自算出の注目度): 41.03500441875287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based Triton kernel generation has attracted significant interest, yet a fundamental empirical question remains unanswered: where does this capability break down, and why? We present KernelBenchX, a benchmark designed to answer this question through category-aware evaluation of correctness and hardware efficiency across 176 tasks in 15 categories. Our systematic comparison of five representative methods yields three main findings. First, task structure determines correctness more than method design. Category explains nearly three times more variance in semantic correctness than method (9.4% vs 3.3% explained deviance), and 72% of Fusion tasks fail across all five methods while Math tasks are solved consistently. Second, iterative refinement improves correctness, but not performance. Across GEAK iterations, compile rate rises from 52.3% to 68.8% while average speedup declines from $1.58\times$ to $1.44\times$; newly rescued kernels consistently underperform persistently correct ones ($1.16\times$ vs $1.58\times$ speedup in round~0$\to$1). Third, correctness does not imply efficiency. 46.6% of correct kernels are slower than the PyTorch eager baseline, and cross-hardware speedup variance reaches $21.4\times$. Besides, quantization remains completely unsolved (0/30 successes) despite non-trivial compilation rates, revealing systematic misunderstanding of numerical computation contracts rather than surface-level syntax errors. These findings suggest that future progress depends on handling global coordination, explicitly modeling numerical precision, and incorporating hardware efficiency into generation. The code is available at https://github.com/BonnieW05/KernelBenchX
- Abstract(参考訳): LLMベースのTritonカーネル生成は大きな関心を集めているが、基本的な実証的な疑問は未解決のままである。
KernelBenchXは15のカテゴリで176のタスクにまたがる正しさとハードウェア効率のカテゴリ認識による評価によってこの問題に対処するために設計されたベンチマークである。
5つの代表法を系統的に比較した結果,主に3つの結果が得られた。
まず、タスク構造がメソッド設計よりも正確性を決定する。
Categoryは、メソッドよりも意味的正しさの約3倍のばらつき(9.4%対3.3%)を説明し、Fusionタスクの72%は5つのメソッドで失敗し、Mathタスクは一貫して解決される。
第2に、反復的な改善は正確性を改善するが、性能は向上しない。
GEAKイテレーション全体で、コンパイル速度は52.3%から68.8%に上昇し、平均スピードアップは1.58\times$から1.44\times$に低下した。
第三に、正確さは効率を暗示しない。
46.6%の正しいカーネルは、PyTorchの熱心なベースラインよりも遅い。
さらに、非自明なコンパイル率にもかかわらず、量子化は完全に未解決(0/30の成功)であり、表面レベルの構文誤差よりも、数値計算の契約を体系的に誤解している。
これらの結果から,今後の進展は,グローバルコーディネーションの処理,数値的精度の明示的モデル化,ハードウェア効率の世代化などに依存することが示唆された。
コードはhttps://github.com/BonnieW05/KernelBenchXで公開されている。
関連論文リスト
- AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search [0.0]
Auto Kernelは、任意のPyTorchモデルのGPUカーネル最適化に自律エージェントループを適用するフレームワークである。
システムには、9000行以上のPythonと、2つのバックエンドにまたがる18のスターターカーネル実装、6層最適化プレイブック、KernelBenchベンチマークスイートとの統合が含まれている。
NVIDIA H100では、テストされたプレイブックの大部分で、私たちのTritonカーネルがPyTorchとTorch.compile(max-autotune)の両方を上回っています。
論文 参考訳(メタデータ) (2026-03-22T17:15:28Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用するフレームワークであるProveを紹介する。
バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。
以上の結果から,すべてのモデルサイズとデータセットにまたがる数学的推論タスクの解決において,Proveはバニラ多数投票を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2024-10-16T14:24:55Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。