論文の概要: HipKittens: Fast and Furious AMD Kernels
- arxiv url: http://arxiv.org/abs/2511.08083v1
- Date: Wed, 12 Nov 2025 01:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.63448
- Title: HipKittens: Fast and Furious AMD Kernels
- Title(参考訳): HipKittens:高速で恐ろしいAMDカーネル
- Authors: William Hu, Drew Wadsworth, Sean Siddens, Stanley Winata, Daniel Y. Fu, Ryann Swann, Muhammad Osama, Christopher Ré, Simran Arora,
- Abstract要約: 本稿では,AMDAIカーネルの性能向上につながるプログラミングプリミティブについて検討する。
我々は,AMDAIカーネルの性能向上につながるプログラミングプリミティブについて,初めて詳細な研究を行った。
これらの発見は、高性能AIカーネルのための単一のタイルベースのソフトウェアレイヤの道を開くのに役立つ。
- 参考スコア(独自算出の注目度): 36.63732085611713
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: AMD GPUs offer state-of-the-art compute and memory bandwidth; however, peak performance AMD kernels are written in raw assembly. To address the difficulty of mapping AI algorithms to hardware, recent work proposes C++ embedded and PyTorch-inspired domain-specific languages like ThunderKittens (TK) to simplify high performance AI kernel development on NVIDIA hardware. We explore the extent to which such primitives -- for explicit tile-based programming with optimized memory accesses and fine-grained asynchronous execution across workers -- are NVIDIA-specific or general. We provide the first detailed study of the programming primitives that lead to performant AMD AI kernels, and we encapsulate these insights in the HipKittens (HK) programming framework. We find that tile-based abstractions used in prior DSLs generalize to AMD GPUs, however we need to rethink the algorithms that instantiate these abstractions for AMD. We validate the HK primitives across CDNA3 and CDNA4 AMD platforms. In evaluations, HK kernels compete with AMD's hand-optimized assembly kernels for GEMMs and attention, and consistently outperform compiler baselines. Moreover, assembly is difficult to scale to the breadth of AI workloads; reflecting this, in some settings HK outperforms all available kernel baselines by $1.2-2.4\times$ (e.g., $d=64$ attention, GQA backwards, memory-bound kernels). These findings help pave the way for a single, tile-based software layer for high-performance AI kernels that translates across GPU vendors. HipKittens is released at: https://github.com/HazyResearch/HipKittens.
- Abstract(参考訳): AMD GPUは最先端の計算とメモリ帯域幅を提供するが、ピーク性能のAMDカーネルは生のアセンブリで書かれている。
AIアルゴリズムをハードウェアにマッピングすることの難しさに対処するため、最近の研究は、NVIDIAハードウェア上での高性能AIカーネル開発を単純化するために、C++組み込みとPyTorchにインスパイアされたThunderKittens(TK)のようなドメイン固有言語を提案する。
このようなプリミティブ -- 最適化されたメモリアクセスとワーカー間のきめ細かい非同期実行を備えた明示的なタイルベースのプログラミング -- がNVIDIA固有のものなのか、それとも一般的なものなのかを調査する。
我々は,AMDAIカーネルの性能向上につながるプログラミングプリミティブに関する最初の詳細な研究を行い,これらの知見をHipKittens(HK)プログラミングフレームワークにカプセル化する。
先行DSLで使用されるタイルベースの抽象化はAMD GPUに一般化するが、これらの抽象化をAMD向けにインスタンス化するアルゴリズムを再考する必要がある。
CDNA3とCDNA4のAMDプラットフォームでHKプリミティブを検証する。
評価において、HKカーネルはGEMMと注意のためにAMDの手で最適化されたアセンブリカーネルと競合し、コンパイラのベースラインを一貫して上回っている。
一部の設定では、HKは利用可能なカーネルベースラインを1.2-2.4\times$(例:$d=64$ attention, GQA backwards, memory-bound kernels)で上回っている。
これらの発見は、GPUベンダー間で翻訳される高性能AIカーネルのための単一のタイルベースのソフトウェアレイヤの道を開くのに役立つ。
HipKittensはhttps://github.com/HazyResearch/HipKittens.comでリリースされた。
関連論文リスト
- Benchmarking Deep Learning Convolutions on Energy-constrained CPUs [0.0]
この研究は、CPUベースのディープラーニング推論のための最先端の畳み込みアルゴリズムを評価する。
我々は、ARM __、Intel __、AMD __、Apple __、Nvidia __から、最新のCPU間で直接、GEMMベースの、Winogradの畳み込みをベンチマークした。
論文 参考訳(メタデータ) (2025-09-30T13:19:00Z) - Geak: Introducing Triton Kernel AI Agent & Evaluation Benchmarks [11.253534066141668]
パフォーマンスと生産性の要求を満たすため、低レベルのカーネル開発を自動化することが不可欠である。
主要なクラウドプロバイダ、半導体企業、研究機関は現在、GPUのためのAI駆動コード生成に多大な投資をしている。
本稿では,TritonベースのGPUカーネルとGAAK(効率的なAI中心GPUカーネルの生成)の評価スイートを提案する。
論文 参考訳(メタデータ) (2025-07-31T02:26:58Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - ThunderKittens: Simple, Fast, and Adorable AI Kernels [43.32681787348603]
We present ThunderKittens (TK), a framework for write performanceant AI kernels while rest to use and maintain。
我々は、さまざまなAI操作に対して、以前のカーネルと一致するか、より優れているカーネルを提供することで、TKの価値を示す。
論文 参考訳(メタデータ) (2024-10-27T10:07:16Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。