論文の概要: CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe
- arxiv url: http://arxiv.org/abs/2604.01489v1
- Date: Wed, 01 Apr 2026 23:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.165722
- Title: CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe
- Title(参考訳): CuTeGen: CuTeを用いた高性能GPUカーネルの生成と最適化のためのLLMベースのエージェントフレームワーク
- Authors: Tara Saba, Anne Ouyang, Xujie Si, Fan Long,
- Abstract要約: CuTeGenはGPUカーネルの自動生成と最適化のためのフレームワークである。
カーネル開発を構造化された生成-テスト-定義ワークフローとして扱う。
本稿では, CuTeGen が機能的に正しいカーネルを生成し, 最適化されたライブラリ実装と比較して, 競合性能を実現することを示す。
- 参考スコア(独自算出の注目度): 7.881930340027473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-performance GPU kernels are critical to modern machine learning systems, yet developing efficient implementations remains a challenging, expert-driven process due to the tight coupling between algorithmic structure, memory hierarchy usage, and hardware-specific optimizations. Recent work has explored using large language models (LLMs) to generate GPU kernels automatically, but generated implementations often struggle to maintain correctness and achieve competitive performance across iterative refinements. We present CuTeGen, an agentic framework for automated generation and optimization of GPU kernels that treats kernel development as a structured generate--test--refine workflow. Unlike approaches that rely on one-shot generation or large-scale search over candidate implementations, CuTeGen focuses on progressive refinement of a single evolving kernel through execution-based validation, structured debugging, and staged optimization. A key design choice is to generate kernels using the CuTe abstraction layer, which exposes performance-critical structures such as tiling and data movement while providing a more stable representation for iterative modification. To guide performance improvement, CuTeGen incorporates workload-aware optimization prompts and delayed integration of profiling feedback. Experimental results on matrix multiplication and activation workloads demonstrate that the framework produces functionally correct kernels and achieves competitive performance relative to optimized library implementations.
- Abstract(参考訳): 高性能GPUカーネルは現代の機械学習システムには不可欠だが、アルゴリズム構造、メモリ階層利用、ハードウェア固有の最適化の密接な結合のため、効率的な実装を開発することは難しい、専門家主導のプロセスのままである。
最近の研究は、GPUカーネルの自動生成に大規模言語モデル(LLM)を使用することを検討しているが、生成した実装は、正確性を維持し、反復的な改善を越えて競合的なパフォーマンスを達成するのに苦労することが多い。
In this present CuTeGen, a agentic framework for automated generation and optimization of GPU kernels that treats kernel development as a structured generation-test-refine workflow。
ワンショット生成や大規模検索を候補実装に頼っているアプローチとは異なり、CuTeGenは実行ベースのバリデーション、構造化デバッグ、ステージ化された最適化を通じて、単一の進化するカーネルの進歩的な改善に焦点を当てている。
重要な設計選択は、CuTe抽象層を使用してカーネルを生成することである。これは、繰り返し修正のためのより安定した表現を提供しながら、タイリングやデータ移動のようなパフォーマンスクリティカルな構造を公開する。
パフォーマンス改善のガイドとして、CuTeGenはワークロード対応の最適化プロンプトとプロファイリングフィードバックの遅延統合を取り入れている。
行列乗算およびアクティベーションのワークロードに関する実験結果から,このフレームワークは機能的に正しいカーネルを生成し,最適化されたライブラリ実装と比較して競争性能が向上することが示された。
関連論文リスト
- VeriAgent: A Tool-Integrated Multi-Agent System with Evolving Memory for PPA-Aware RTL Code Generation [52.43796056267479]
高品質なベリログコード生成のためのPPA対応ツール統合マルチエージェントフレームワークを提案する。
当社のフレームワークでは,EDAツールをtextitProgrammer Agent, textitCorrectness Agent, textitPPA Agentで構成されるクローズドループワークフローに明示的に組み込んでいる。
モデル再トレーニングなしに継続的な改善をサポートするために,構造化メモリノードに最適化エクスペリエンスを外部化するtextitEvolved Memory Mechanismを導入する。
論文 参考訳(メタデータ) (2026-03-18T11:25:40Z) - KernelFoundry: Hardware-aware evolutionary GPU kernel optimization [9.20884368317651]
KernelFoundryは、GPUカーネルデザインスペースを効率的に探求する進化的フレームワークである。
KernelBench、堅牢なkbench、カスタムタスクでこのフレームワークを評価します。
提案手法は,SYCL における KernelBench の平均速度を2.3倍に向上する。
論文 参考訳(メタデータ) (2026-03-12T20:40:04Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization [24.065109818256605]
TritonForgeは、GPUカーネルの自動最適化のためのプロファイリング誘導フレームワークである。
カーネル分析、ランタイムプロファイリング、反復的なコード変換を統合し、プロセスを合理化します。
ベースライン実装よりも最大5倍のパフォーマンス向上を実現し、ケースの1.76倍が成功している。
論文 参考訳(メタデータ) (2025-12-09T23:44:35Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization [25.135006275638172]
本稿では,カーネル性能の厳密な評価と,さまざまなシナリオにおける正当性評価のための新しいベンチマークである,ロバスト・クベンチを紹介する。
また、トーチコードをカーネルに変換し、ランタイム設定を反復的に改善する包括的なエージェントフレームワークを提案する。
提案手法は,フォワードパスやバックパスを含む,実用アプリケーションのためのトーチ実装よりも優れたカーネルを生成する。
論文 参考訳(メタデータ) (2025-09-16T11:08:30Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。