論文の概要: MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU
- arxiv url: http://arxiv.org/abs/2606.04847v1
- Date: Wed, 03 Jun 2026 13:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.776046
- Title: MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU
- Title(参考訳): MusaCoder: Moore Threads GPUのフルスタックトレーニングを備えたネイティブGPUカーネル生成
- Authors: Kun Cheng, Songshuo Lu, Sicong Liao, Tankun Li, Yafei Zhang, Dong Yang, Qiheng Lv, Hua Wang, Zhi Chen, Yaohua Tang,
- Abstract要約: MusaCoderは、ネイティブGPUカーネル生成とMUSAバックエンドのためのフルスタックのトレーニングフレームワークである。
プログレッシブカーネル指向のデータ、多様性指向の拒否微調整、実行フィードバック強化学習を組み合わせる。
MusaCoderは、正確性と実証的なスピードアップの両方において、強力なオープンソースとプロプライエタリなベースラインを上回っている。
- 参考スコア(独自算出の注目度): 13.804579448127788
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Native GPU kernel generation turns high-level tensor programs into executable, efficient low-level code. Existing Large Language Models (LLMs) struggle with this task, while execution-based reinforcement learning suffers from sparse rewards, reward hacking, and training instability. We present MusaCoder, a full-stack training framework for native GPU kernel generation on CUDA and MUSA backends. MusaCoder combines progressive kernel-oriented data synthesis, diversity-preserving rejection fine-tuning, and execution-feedback Reinforcement Learning (RL) through MooreEval, a distributed verifier and reward environment. To stabilize RL, MusaCoder introduces PrimeEcho for first-turn-anchored multi-turn rewards, Buffered Dynamic Retry for recovering signals from all-failed hard samples, and MirrorPop for off-policy sequence filtering. Experiments on KernelBench and a MUSA-ported variant show that MusaCoder outperforms strong open-source and proprietary baselines in both correctness and empirical speedup, with the 9B model matching or exceeding frontier closed-source models and the 27B model establishing a new state of the art. These results demonstrate not only the effectiveness of full-stack execution-feedback training for native kernel generation, but also the capability of Moore Threads GPUs to support the complete LLM post-training stack, providing a practical foundation for large-model training and optimization on emerging accelerators.
- Abstract(参考訳): ネイティブGPUカーネル生成は、ハイレベルテンソルプログラムを実行可能で効率的な低レベルコードに変換する。
既存のLarge Language Models (LLM) はこのタスクに苦労する一方で、実行ベースの強化学習では報酬の不足、報酬のハッキング、トレーニングの不安定性に悩まされている。
CUDAおよびMUSAバックエンド上でのネイティブGPUカーネル生成のためのフルスタックトレーニングフレームワークであるMustaCoderを紹介する。
MusaCoderは、分散検証と報酬環境であるMooreEvalを通じて、プログレッシブなカーネル指向のデータ合成、多様性を保ったリジェクションの微調整、実行フィードバック強化学習(RL)を組み合わせる。
RLを安定化するために、MustaCoderは、最初のターンアンカレートされたマルチターン報酬のためのPrimeEcho、全障害のあるハードサンプルからの信号を回復するためのバッファ付き動的リトライ、オフポリシーシーケンスフィルタリングのためのMirrorPopを導入した。
KernelBenchとMUSAに移植された変種の実験では、MusaCoderは、9Bモデルが整合または整合したフロンティアクローズソースモデルと27Bモデルで、正確性と実証的なスピードアップの両方において、強力なオープンソースとプロプライエタリなベースラインを上回り、新しい最先端技術を確立することが示されている。
これらの結果は、ネイティブカーネル生成のためのフルスタック実行フィードバックトレーニングの有効性だけでなく、ムーアスレッドGPUによる完全なLLMポストトレーニングスタックのサポート能力も示しており、新興アクセラレーターに対する大規模モデルトレーニングと最適化の実践的な基盤となっている。
関連論文リスト
- StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning [26.264303471292845]
エンドツーエンドGPUプログラム生成のためのマルチエージェントフレームワークであるStitchCUDAを提案する。
実験の結果、StitchCUDAはエンドツーエンドのプログラミングタスクで100%近く成功し、マルチエージェントベースラインの1.72倍の高速化を実現している。
論文 参考訳(メタデータ) (2026-03-03T06:04:49Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - Dream-Coder 7B: An Open Diffusion Language Model for Code [99.14959222355988]
そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。
厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
論文 参考訳(メタデータ) (2025-09-01T05:30:56Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。