論文の概要: DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
- arxiv url: http://arxiv.org/abs/2602.11715v1
- Date: Thu, 12 Feb 2026 08:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.727496
- Title: DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
- Title(参考訳): DICE:CUDAカーネルの生成時にExcelを拡散する大言語モデル
- Authors: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang,
- Abstract要約: 拡散大言語モデル (dLLM) は自己回帰(AR) LLM に代わる魅力的な代替品として登場した。
CuKeは、高性能カーネル向けに最適化された拡張データセットである。
DICEはカーネル生成用に設計された拡散大言語モデルである。
- 参考スコア(独自算出の注目度): 17.979042914049842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.
- Abstract(参考訳): 拡散大言語モデル (dLLM) は、並列トークン生成能力のため、自己回帰(AR) LLM に代わる魅力的な代替品として登場した。
このパラダイムは、全体的な構造計画と非シークエンシャルな改善が重要であるコード生成に特に適しています。
このような可能性にもかかわらず、CUDAカーネル生成のためのdLLMの調整は依然として困難であり、高い特殊化だけでなく、高品質なトレーニングデータの不足によって妨げられている。
これらの課題に対処するため、我々は高性能CUDAカーネル向けに最適化された教師付き微調整データセットCuKeを構築した。
そこで本研究では,CUDAカーネルの埋込ステージとエンドツーエンドのCUDAカーネル生成ステージで構成されるバイフェーズ・キュレート強化学習(BiC-RL)フレームワークを提案する。
DICEはCUDAカーネル生成用に設計された,3つのパラメータスケール,1.7B,4B,8Bの拡散大言語モデルである。
KernelBench での大規模な実験により、DICE は自己回帰性および拡散性 LLM の両方に匹敵する性能を示し、CUDA カーネル生成のための新しい最先端技術を確立した。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - ConCuR: Conciseness Makes State-of-the-Art Kernel Generation [5.010229074860956]
カーネル生成の主な課題は、高品質なデータの不足である。
我々は,高品質なカーネルを推論トレースで生成し,キュレートするパイプラインを開発した。
本稿では,カーネル生成タスクの難易度を評価する指標として,平均推論長が有効であることを示す。
論文 参考訳(メタデータ) (2025-10-08T15:41:15Z) - EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models [27.430839306140157]
カーネル最適化を自動化するLarge Language Models (LLMs) が約束する。
汎用LLMコード進化法は、カーネル最適化の厳密な正当性要件を満たすことができない。
EvoEngineerは、パフォーマンスと正確性のバランスを達成するために最適化戦略を設計し、適応するためのガイダンスを提供する。
提案手法は,PyTorchカーネル上のすべての操作のうち,最大速度のtextbf36.75$times を実現し,textbf28 (textbf56.0%) で最大速度の textbf2times$Acceleration を実現する。
論文 参考訳(メタデータ) (2025-10-04T10:00:25Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - LKD-Net: Large Kernel Convolution Network for Single Image Dehazing [70.46392287128307]
本稿では,LKCB(Large Kernel Convolution Dehaze Block)とCEFN(Channel Enhanced Feed-forward Network)を組み合わせた新しいLKDブロックを提案する。
設計されたDLKCBは、大規模なカーネルの畳み込みを、大量のパラメータや計算オーバーヘッドを伴わずに、より小さな奥行きの畳み込みと奥行きの縮み込みに分割することができる。
我々のLKD-NetはTransformerベースのメソッドであるDehamerを1.79%の#Paramと48.9%のFLOPで劇的に上回っている。
論文 参考訳(メタデータ) (2022-09-05T06:56:48Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。