論文の概要: QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation
- arxiv url: http://arxiv.org/abs/2511.20100v1
- Date: Tue, 25 Nov 2025 09:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.378237
- Title: QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation
- Title(参考訳): QiMeng-Kernel: LLMに基づく高性能GPUカーネル生成のためのマクロシンキングマイクロコーディングパラダイム
- Authors: Xinguo Zhu, Shaohui Peng, Jiaming Guo, Yunji Chen, Qi Guo, Yuanbo Wen, Hang Qin, Ruizhi Chen, Qirui Zhou, Ke Gao, Yanjun Wu, Chen Zhao, Ling Li,
- Abstract要約: マイクロコーディングは、人間の専門家の段階最適化戦略にインスパイアされた階層的なフレームワークである。
最適化戦略を実装の詳細から切り離し、高レベルの戦略と低レベルの実装によって正確性を確保する。
レベル1-2と3で100%と70%の精度を達成し、SOTAの汎用とドメインファインチュアリングのLLMよりも50%以上、LLMよりも7.3倍、エキスパート最適化のPyTorch Eagerカーネルより2.2倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 41.53673797546332
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing high-performance GPU kernels is critical for AI and scientific computing, but remains challenging due to its reliance on expert crafting and poor portability. While LLMs offer promise for automation, both general-purpose and finetuned LLMs suffer from two fundamental and conflicting limitations: correctness and efficiency. The key reason is that existing LLM-based approaches directly generate the entire optimized low-level programs, requiring exploration of an extremely vast space encompassing both optimization policies and implementation codes. To address the challenge of exploring an intractable space, we propose Macro Thinking Micro Coding (MTMC), a hierarchical framework inspired by the staged optimization strategy of human experts. It decouples optimization strategy from implementation details, ensuring efficiency through high-level strategy and correctness through low-level implementation. Specifically, Macro Thinking employs reinforcement learning to guide lightweight LLMs in efficiently exploring and learning semantic optimization strategies that maximize hardware utilization. Micro Coding leverages general-purpose LLMs to incrementally implement the stepwise optimization proposals from Macro Thinking, avoiding full-kernel generation errors. Together, they effectively navigate the vast optimization space and intricate implementation details, enabling LLMs for high-performance GPU kernel generation. Comprehensive results on widely adopted benchmarks demonstrate the superior performance of MTMC on GPU kernel generation in both accuracy and running time. On KernelBench, MTMC achieves near 100% and 70% accuracy at Levels 1-2 and 3, over 50% than SOTA general-purpose and domain-finetuned LLMs, with up to 7.3x speedup over LLMs, and 2.2x over expert-optimized PyTorch Eager kernels. On the more challenging TritonBench, MTMC attains up to 59.64% accuracy and 34x speedup.
- Abstract(参考訳): 高性能GPUカーネルの開発は、AIと科学計算にとって重要であるが、専門家の工芸と移植性に頼っているため、依然として難しい。
LLMは自動化を約束するが、汎用性と微調整性の両方のLLMは2つの基本的かつ矛盾する制限、すなわち正確性と効率性に悩まされている。
主な理由は、既存のLLMベースのアプローチが最適化された低レベルプログラムを直接生成し、最適化ポリシーと実装コードの両方を含む非常に広大な空間を探索する必要があるからである。
難解な空間を探索する上での課題に対処するために,人間専門家の段階最適化戦略に触発された階層型フレームワークであるマクロシンキングマイクロコーディング(MTMC)を提案する。
最適化戦略を実装の詳細から切り離し、高レベルの戦略と低レベルの実装によって正確性を確保する。
特に、Macro Thinkingは、ハードウェア利用を最大化するセマンティック最適化戦略を効率的に探索し学習するために、軽量LLMをガイドする強化学習を採用している。
Micro Coding は汎用 LLM を活用して,Macro Thinking の段階的な最適化提案を段階的に実装する。
同時に、巨大な最適化空間を効果的にナビゲートし、実装の詳細を複雑にすることで、高性能GPUカーネル生成のためのLLMを実現する。
広く採用されているベンチマークの総合的な結果は、GPUカーネル生成におけるMTMCの精度と実行時間の両方で優れた性能を示す。
KernelBenchでは、MTMCはレベル1-2と3で100%と70%の精度を達成し、SOTAの汎用およびドメインファインチュアリングのLLMよりも50%以上、LLMよりも7.3倍、エキスパート最適化のPyTorch Eagerカーネルより2.2倍のスピードアップを実現している。
より挑戦的なトリトンベンチでは、MTMCは59.64%の精度と34倍のスピードアップを達成した。
関連論文リスト
- OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling [13.57588221678224]
大規模言語モデル(LLM)は、最適化モデリングの驚くべき進歩を示している。
自動定式化と問題解決におけるそれらの能力の境界は、まだよく理解されていない。
OPT-ENGINEは、制御可能でスケーラブルな難易度を持つ最適化モデルにおいて、LCMを評価するために設計されたベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-01-09T09:22:33Z) - KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit [15.810081332925584]
KernelBandは、カーネル最適化を階層的な多重武装バンディット問題として定式化する新しいフレームワークである。
我々はKernelBandが最先端の手法よりも優れており、より少ないトークンで優れた性能を実現し、計算資源の増加とともに飽和を伴わずに一貫した改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-24T08:11:50Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - MAHL: Multi-Agent LLM-Guided Hierarchical Chiplet Design with Adaptive Debugging [30.305211001929496]
大きな言語モデル(LLM)は2.5Dに拡張することを約束している。
LLMはフラットな設計、高い検証コスト、不正確なパラメータ最適化といった課題に直面している。
階層型LLMベースのチップレット設計生成フレームワークであるMAHLを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:47:31Z) - GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization [0.0]
本稿では,アクセルカーネルを反復精製する自動化手法を提案する。
本手法は多段階進化過程においてLLMを用いる。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
論文 参考訳(メタデータ) (2025-06-25T19:59:34Z) - QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm [24.09018606185114]
我々は,LLMがGPU上での高レベル最適化ロジックの生成と低レベル実装を分離するためのLLMフレンドリーな思考言語(LLM-TL)を提案する。
2段階の推論ワークフロー、TL-Codeの生成と変換に加えて、LLMはさまざまなGPU上でFlashAttention実装を自動的に生成できる。
論文 参考訳(メタデータ) (2025-06-14T05:38:19Z) - Large language models as uncertainty-calibrated optimizers for experimental discovery [4.968931211284832]
本稿では,従来の最適化手法の不確実性を考慮した言語モデルのトレーニングにより,自然言語インタフェースによる信頼度向上が実現可能であることを示す。
提案手法は, 高収率反応条件の発見率を24%から43%にほぼ倍増させる。
論文 参考訳(メタデータ) (2025-04-08T17:59:57Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces [9.880183350366792]
並列プログラムのパフォーマンスを改善する上で重要な課題は、タスクをプロセッサやデータに効率的にメモリにマッピングすることだ。
生成最適化によるマッパー開発を自動化するフレームワークを提案する。
提案手法では,9つのベンチマークで1.34倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-10-21T04:08:37Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。