論文の概要: Astra: A Multi-Agent System for GPU Kernel Performance Optimization
- arxiv url: http://arxiv.org/abs/2509.07506v1
- Date: Tue, 09 Sep 2025 08:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.233687
- Title: Astra: A Multi-Agent System for GPU Kernel Performance Optimization
- Title(参考訳): Astra:GPUカーネル性能最適化のためのマルチエージェントシステム
- Authors: Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken,
- Abstract要約: 我々はGPUカーネル最適化のための最初のマルチエージェントシステムであるAstraを紹介する。
Astra内では、コード生成、プロファイリング、そして正確かつ高性能なカーネルの生成計画を通じて、特殊なエージェントが協力する。
- 参考スコア(独自算出の注目度): 10.715861478214961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU kernel optimization has long been a central challenge at the intersection of high-performance computing and machine learning. Efficient kernels are crucial for accelerating large language model (LLM) training and serving, yet attaining high performance typically requires extensive manual tuning. Compiler-based systems reduce some of this burden, but still demand substantial manual design and engineering effort. Recently, researchers have explored using LLMs for GPU kernel generation, though prior work has largely focused on translating high-level PyTorch modules into CUDA code. In this work, we introduce Astra, the first LLM-based multi-agent system for GPU kernel optimization. Unlike previous approaches, Astra starts from existing CUDA implementations extracted from SGLang, a widely deployed framework for serving LLMs, rather than treating PyTorch modules as the specification. Within Astra, specialized LLM agents collaborate through iterative code generation, testing, profiling, and planning to produce kernels that are both correct and high-performance. On kernels from SGLang, Astra achieves an average speedup of 1.32x using zero-shot prompting with OpenAI o4-mini. A detailed case study further demonstrates that LLMs can autonomously apply loop transformations, optimize memory access patterns, exploit CUDA intrinsics, and leverage fast math operations to yield substantial performance gains. Our work highlights multi-agent LLM systems as a promising new paradigm for GPU kernel optimization.
- Abstract(参考訳): GPUカーネルの最適化は、長い間、高性能コンピューティングと機械学習の交差点で中心的な課題だった。
効率的なカーネルは、大規模言語モデル(LLM)のトレーニングとサービスを促進するために不可欠であるが、高いパフォーマンスを達成するには、通常、広範囲な手動チューニングが必要である。
コンパイラベースのシステムは、この負担の一部を軽減しますが、それでもかなりの手動設計とエンジニアリングの努力が必要です。
最近、研究者はGPUカーネル生成にLLMを使うことを検討したが、以前の研究は、高レベルのPyTorchモジュールをCUDAコードに変換することに集中していた。
本稿では,GPUカーネル最適化のためのLLMベースのマルチエージェントシステムであるAstraを紹介する。
従来のアプローチとは異なり、AstraはPyTorchモジュールを仕様として扱うのではなく、LLMを提供する広くデプロイされたフレームワークであるSGLangから抽出された既存のCUDA実装から始まる。
Astra内では、特殊なLLMエージェントが反復的なコード生成、テスト、プロファイリングを通じて協力し、正確かつ高性能なカーネルを生成する計画を立てている。
SGLangのカーネルでは、OpenAI o4-miniでゼロショットプロンプトを使用して平均1.32倍のスピードアップを達成する。
より詳細なケーススタディでは、LLMがループ変換を自律的に適用し、メモリアクセスパターンを最適化し、CUDAの内在性を活用し、高速な算術演算を活用して大幅な性能向上を達成できることが示されている。
我々は,GPUカーネル最適化のための新しいパラダイムとして,マルチエージェントLLMシステムを強調した。
関連論文リスト
- Omniwise: Predicting GPU Kernels Performance with LLMs [0.06666419797034795]
Omniwiseは、GPUカーネルのパフォーマンス予測に大規模言語モデル(LLM)を適用する、エンド・ツー・エンドの自己教師型微調整パイプラインである。
メモリ帯域幅、キャッシュヒット率、GFLOP、演算強度などの重要なパフォーマンス指標を、コード実行やプロファイリングツールを必要とせずに、カーネルコードから直接予測することができる。
提案手法は,AMD MI250およびMI300Xアーキテクチャ上で実行されるGPUカーネル上での相対誤差の10%以内の予測を90%以上達成する。
論文 参考訳(メタデータ) (2025-06-25T23:36:44Z) - GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization [0.0]
本稿では,アクセルカーネルを反復精製する自動化手法を提案する。
本手法は多段階進化過程においてLLMを用いる。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
論文 参考訳(メタデータ) (2025-06-25T19:59:34Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。