論文の概要: ConCuR: Conciseness Makes State-of-the-Art Kernel Generation
- arxiv url: http://arxiv.org/abs/2510.07356v1
- Date: Wed, 08 Oct 2025 15:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.635913
- Title: ConCuR: Conciseness Makes State-of-the-Art Kernel Generation
- Title(参考訳): ConCuR: 最先端のカーネル生成を実現する簡潔さ
- Authors: Lingcheng Kong, Jiateng Wei, Hanzhang Shen, Huan Wang,
- Abstract要約: カーネル生成の主な課題は、高品質なデータの不足である。
我々は,高品質なカーネルを推論トレースで生成し,キュレートするパイプラインを開発した。
本稿では,カーネル生成タスクの難易度を評価する指標として,平均推論長が有効であることを示す。
- 参考スコア(独自算出の注目度): 5.010229074860956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU kernel generation by LLMs has recently experienced rapid development, leveraging test-time scaling and reinforcement learning techniques. However, a key challenge for kernel generation is the scarcity of high-quality data, as most high-quality kernels are proprietary and not open-source. This challenge prevents us from leveraging supervised fine-tuning to align LLMs to the kernel generation task. To address this challenge, we develop a pipeline that generates and curates high-quality CUDA kernels with reasoning traces, motivated by a critical observation that concise yet informative reasoning traces result in robust generation of high-performance kernels. Using this pipeline, we construct our dataset ConCuR and introduce our model KernelCoder, which is the first model trained on a curated dataset consisting of PyTorch, reasoning, and CUDA kernel pairs, to our knowledge. In the KernelBench setup, our model achieves significant improvements over the existing top-performing model, QwQ-32B, and outperforms all open-source models fine-tuned for kernel generation, as well as frontier models such as DeepSeek-V3.1-Think and Claude-4-sonnet. Finally, we show that the average reasoning length can serve as a metric to assess the difficulty of kernel generation tasks. The observations, metrics, and our data collection and curation pipeline can help obtain better data in the kernel generation task in the future.
- Abstract(参考訳): LLMsによるGPUカーネル生成は、テストタイムのスケーリングと強化学習技術を活用した、急速な開発を経験している。
しかし、カーネル生成の重要な課題は、ほとんどの高品質なカーネルはプロプライエタリであり、オープンソースではないため、高品質なデータの不足である。
この課題は、LLMをカーネル生成タスクに合わせるために教師付き微調整を活用するのを妨げます。
この課題に対処するため、我々は高品質なCUDAカーネルを推論トレースで生成し、キュレートするパイプラインを開発した。
このパイプラインを使用して、データセットConCuRを構築し、私たちのモデルであるKernelCoderを紹介します。これは、PyTorch、推論、CUDAカーネルペアからなるキュレートデータセットでトレーニングされた最初のモデルです。
KernelBenchのセットアップでは、既存のトップパフォーマンスモデルであるQwQ-32Bよりも大幅に改善され、カーネル生成のために調整されたすべてのオープンソースモデル、DeepSeek-V3.1-ThinkやClaude-4-sonnetといったフロンティアモデルよりも優れています。
最後に,カーネル生成タスクの難易度を評価する指標として,平均推論長が有効であることを示す。
観察、メトリクス、データ収集およびキュレーションパイプラインは、将来カーネル生成タスクでより良いデータを得るのに役立つ。
関連論文リスト
- Generative Latent Kernel Modeling for Blind Motion Deblurring [43.79789971884913]
本稿では,深層生成ネットワークジェネレータに基づくカーネルのぼかし推定のための新しいフレームワークを提案する。
我々は、挑戦的なベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-12T13:48:10Z) - Scalable Gaussian Processes with Low-Rank Deep Kernel Decomposition [7.532273334759435]
カーネルはガウス過程(GP)モデルにおいて、事前の信念とデータ構造を符号化する鍵である。
ディープカーネル学習は、標準的なパラメトリック形式を適用する前に、ニューラルネットワークを介して入力を入力することで、カーネルの柔軟性を向上させる。
我々は、ニューラルネットワークが直接低ランクカーネルを表現する、完全にデータ駆動でスケーラブルなディープカーネル表現を導入する。
論文 参考訳(メタデータ) (2025-05-24T05:42:11Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Generative Kernel Continual learning [117.79080100313722]
本稿では、生成モデルとカーネル間の相乗効果を利用して連続学習を行う、生成カーネル連続学習を紹介する。
生成モデルは、カーネル学習のための代表サンプルを生成することができ、カーネル連続学習におけるメモリ依存を取り除くことができる。
コントリビューションの能力とメリットを示すために,広く利用されている3つの連続学習ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-26T16:02:10Z) - Kernel Continual Learning [117.79080100313722]
カーネル連続学習は、破滅的な忘れ事に取り組むための、シンプルだが効果的な連続学習の変種である。
エピソードメモリユニットは、カーネルリッジ回帰に基づいてタスク固有の分類器を学ぶために、各タスクのサンプルのサブセットを格納する。
タスク毎にデータ駆動カーネルを学ぶための変動ランダム機能。
論文 参考訳(メタデータ) (2021-07-12T22:09:30Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。