論文の概要: GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization
- arxiv url: http://arxiv.org/abs/2506.20807v1
- Date: Wed, 25 Jun 2025 19:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.873735
- Title: GPU Kernel Scientist: An LLM-Driven Framework for Iterative Kernel Optimization
- Title(参考訳): GPUカーネルサイエンティスト:反復カーネル最適化のためのLLM駆動フレームワーク
- Authors: Martin Andrews, Sam Witteveen,
- Abstract要約: GPUカーネルサイエンティスト(GPU Kernel Scientist)は、アクセラレータカーネルを反復的に精製する自動化手法である。
本手法は多段階進化過程においてLLMを用いる。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述する。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Optimizing GPU kernels for high performance is a complex task, often demanding deep architectural knowledge, extensive profiling, and iterative experimentation. This challenge is amplified when targeting newer or less-documented GPU architectures where traditional development aids are scarce. This paper introduces an LLM-powered "GPU Kernel Scientist," an automated methodology for iteratively refining accelerator kernels. Our methodology employs LLMs in a multi-stage, evolutionary process: (a) strategically selecting promising prior code versions as a basis for new iterations; (b) generating hypotheses for optimization experiments, based on existing code and assimilated knowledge from general GPU literature; and (c) autonomously implementing these experiments through code modification and subsequent submission to an external evaluation system, using only observed timing data as performance feedback. We detail how this approach navigates the challenges of the AMD MI300 target architecture and leverages LLMs to compensate for limited domain-specific human expertise. Since quantitative results from an ongoing performance competition were embargoed on paper submission date, we present the architectural design, operational workflow, and qualitative insights, highlighting the potential of LLM-driven agents to democratise and accelerate GPU kernel optimization, especially in resource-constrained or rapidly evolving hardware environments.
- Abstract(参考訳): 高いパフォーマンスのためにGPUカーネルを最適化することは複雑な作業であり、しばしば深いアーキテクチャ知識、広範なプロファイリング、反復的な実験を必要とする。
この課題は、従来の開発支援が不足している、より新しい、またはドキュメントの少ないGPUアーキテクチャをターゲットとする場合に、増幅される。
本稿では,加速器カーネルの繰り返し精製のための自動手法であるLLMを用いたGPUカーネル・サイエンティストを紹介する。
我々の方法論は、多段階の進化過程においてLLMを用いる。
(a) 新たなイテレーションの基盤として、有望な事前コードバージョンを戦略的に選択すること。
b) 既存のコードと一般的なGPU文献からの同化知識に基づく最適化実験のための仮説の生成
(c)コード修正とその後の外部評価システムへの提出を通じて、観測されたタイミングデータのみをパフォーマンスフィードバックとして、これらの実験を自律的に実施する。
このアプローチがAMD MI300ターゲットアーキテクチャの課題をどのようにナビゲートするかを詳述し、LLMを活用して限られたドメイン固有の人間の専門知識を補う。
進行中のパフォーマンス競争の定量的結果が論文提出日に禁じられているため、特にリソース制約や急速に進化するハードウェア環境において、LLM駆動エージェントがGPUカーネルの最適化を民主化し加速する可能性を強調し、アーキテクチャ設計、運用ワークフロー、質的な洞察を提示する。
関連論文リスト
- CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - SEKI: Self-Evolution and Knowledge Inspiration based Neural Architecture Search via Large Language Models [11.670056503731905]
本稿では,新しい大規模言語モデル (LLM) に基づくニューラルアーキテクチャ探索 (NAS) 手法であるSEKIを紹介する。
現代のLLMにおけるチェーン・オブ・シント(CoT)パラダイムにインスパイアされたセキは、自己進化と知識蒸留という2つの重要な段階で動作している。
論文 参考訳(メタデータ) (2025-02-27T09:17:49Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。