論文の概要: SwizzlePerf: Hardware-Aware LLMs for GPU Kernel Performance Optimization
- arxiv url: http://arxiv.org/abs/2508.20258v1
- Date: Wed, 27 Aug 2025 20:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.812625
- Title: SwizzlePerf: Hardware-Aware LLMs for GPU Kernel Performance Optimization
- Title(参考訳): SwizzlePerf:GPUカーネルパフォーマンス最適化のためのハードウェア対応LLM
- Authors: Arya Tschand, Muhammad Awad, Ryan Swann, Kesavan Ramakrishnan, Jeffrey Ma, Keith Lowery, Ganesh Dasika, Vijay Janapa Reddi,
- Abstract要約: SwizzlePerfは、分散アーキテクチャ上でGPUカーネルの空間最適化を自動的に生成する。
SwizzlePerfは10種類のMLカーネルとScienceカーネルのスイートで、最大2.06倍のスピードアップとL2ヒットレートの70%の改善を実現する9つのカーネルのスワズリングパターンを生成することができる。
- 参考スコア(独自算出の注目度): 4.043444100380313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown progress in GPU kernel performance engineering using inefficient search-based methods that optimize around runtime. Any existing approach lacks a key characteristic that human performance engineers rely on for near-optimal utilization -- hardware-awareness. By leveraging the workload's specific memory access patterns, architecture specifications, filtered profiling logs, and reflections on historical performance, we can make software-level optimizations that are tailored to the underlying hardware. SwizzlePerf automatically generates spatial optimizations for GPU kernels on disaggregated architectures by giving LLMs explicit hardware-awareness. For a GEMM kernel, SwizzlePerf takes less than 5 minutes to generate the same hardware-specific optimal swizzling pattern that took expert performance engineers 2 weeks to find. On a suite of 10 diverse ML and Science kernels, SwizzlePerf can generate swizzling patterns for 9 of the kernels that achieve up to a 2.06x speedup and 70% improvement in L2 hit rate. This work is the first of many steps toward systematically creating hardware-aware LLM performance engineering agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、実行時を最適化する非効率な検索ベースの手法を用いて、GPUカーネルのパフォーマンスエンジニアリングの進歩を示している。
既存のアプローチには、ハードウェア認識のほぼ最適利用に人間パフォーマンスエンジニアが依存する重要な特徴が欠けている。
ワークロードの特定のメモリアクセスパターン、アーキテクチャ仕様、フィルタリングされたプロファイリングログ、過去のパフォーマンスに関するリフレクションを活用することで、基盤となるハードウェアに合わせたソフトウェアレベルの最適化が可能になる。
SwizzlePerfは、ハードウェア認識を明確にすることで、分散アーキテクチャ上でGPUカーネルの空間最適化を自動的に生成する。
GEMMカーネルの場合、SwizzlePerfはハードウェア固有の最適なスワズリングパターンを生成するのに5分もかからない。
SwizzlePerfは10種類のMLカーネルとScienceカーネルのスイートで、最大2.06倍のスピードアップとL2ヒットレートの70%の改善を実現する9つのカーネルのスワズリングパターンを生成することができる。
この研究は、ハードウェア対応のLLMパフォーマンスエンジニアリングエージェントを体系的に作成するための最初のステップである。
関連論文リスト
- CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - GPU Performance Portability needs Autotuning [0.0]
LLMは複雑さが増し、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア間の密な共同設計が必要である。
JIT(Just-in-time)コンパイルと包括的カーネルパラメータの自動チューニングを併用する。
我々の結果は、GPUベンダー間のモデルポータビリティをアンロックするための有望なパスとして、オートチューニングを強調しています。
論文 参考訳(メタデータ) (2025-04-30T12:57:21Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。