論文の概要: Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs
- arxiv url: http://arxiv.org/abs/2604.23466v1
- Date: Sat, 25 Apr 2026 23:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.373032
- Title: Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs
- Title(参考訳): HopperとBlackwell GPUによるAIワークロードのCUDAタイルの評価
- Authors: Divakar Kumar Yadav, Tian Zhao, Deepak Kumar,
- Abstract要約: NVIDIAのCuTileは、GPUカーネル開発のためのPythonベースのタイル中心の抽象化を導入した。
確立されたアプローチに対するCuTileの独立したクロスアーキテクチャ評価を初めて提示する。
- 参考スコア(独自算出の注目度): 2.2964417137558457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NVIDIA's CUDA Tile (CuTile) introduces a Python-based, tile-centric abstraction for GPU kernel development that aims to simplify programming while retaining Tensor Core and Tensor Memory Accelerator (TMA) efficiency on modern GPUs. We present the first independent, cross-architecture evaluation of CuTile against established approaches such as cuBLAS, Triton, WMMA, and raw SIMT on three NVIDIA GPUs spanning Hopper and Blackwell: H100 NVL, B200, and RTX PRO 6000 Blackwell Server Edition. We benchmark representative AI workloads, including GEMM, fused multi-head attention, and end-to-end LLM inference in BF16/FP16 precision, to assess both performance and portability. Our results show that CuTile effectiveness is strongly workload- and architecture-dependent. On datacenter-class Blackwell (B200), CuTile achieves up to 1007 TFLOP/s for fused attention, outperforming FlashAttention-2 by 2.5x while requiring only 60 lines of Python kernel code. For GEMM, CuTile reaches 52-79% of cuBLAS performance in 22 lines of code (versus 123 for WMMA), making it a practical replacement for hand-written CUDA kernels but not yet for vendor-optimized libraries. However, the same CuTile attention kernel achieves only 53% of FlashAttention-2 throughput on RTX PRO 6000 (sm_120), exposing significant cross-architecture optimization gaps. In contrast, Triton sustains 62-101% of cuBLAS performance across all tested platforms without architecture-specific tuning, demonstrating substantially stronger portability.
- Abstract(参考訳): NVIDIAのCUDA Tile(CuTile)は、最新のGPU上でのTensor CoreとTensor Memory Accelerator(TMA)の効率を維持しながら、プログラミングを簡素化することを目的とした、Pythonベースのタイル中心のGPUカーネル開発のための抽象化である。
我々は, HopperとBlackwellにまたがる3つのNVIDIA GPU(H100 NVL, B200, RTX PRO 6000 Blackwell Server Edition)上で, cuBLAS, Triton, WMMA, および生SIMTなどの確立したアプローチに対して, CuTileの独立したクロスアーキテクチャ評価を行った。
BF16/FP16の精度で、GEMM、融合マルチヘッドアテンション、エンドツーエンドのLLM推論などの代表的AIワークロードをベンチマークし、パフォーマンスとポータビリティの両方を評価する。
この結果から,CuTileの有効性は強いワークロード依存とアーキテクチャ依存であることが示唆された。
データセンタークラスであるBlackwell (B200)では、CuTileは1007 TFLOP/sに達し、たった60行のPythonカーネルコードしか必要とせず、FlashAttention-2を2.5倍上回っている。
GEMMでは、CuTileは22行のコード(WMMAはバージョン123)でcuBLASのパフォーマンスの52-79%に達する。
しかし、同じCuTileアテンションカーネルは、RTX PRO 6000 (sm_120)上でFlashAttention-2スループットの53%しか達成していない。
対照的に、Tritonはアーキテクチャ固有のチューニングなしで全てのテストプラットフォームで62-101%のcuBLAS性能を維持しており、ポータビリティが著しく向上している。
関連論文リスト
- FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling [20.849774181776414]
FlashAttention-4はcuDNN 9.13で最大1.3$times$、BF16でB200 GPUで2.7$times$Tritonで最大2.7$times$を達成している。
従来のC++テンプレートベースのアプローチと比較して20~30$times$高速なコンパイルタイムを実現しています。
論文 参考訳(メタデータ) (2026-03-05T18:24:49Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels [40.94392896555992]
既存のシステムは、計算通信の重複によってこれを緩和するが、しばしばワークロードと新しいアクセラレータ間の理論的帯域幅を満たさない。
演算子固有のテクニックの代わりに、簡単な再利用可能な原則の小さなセットが、ワークロードの最適なパフォーマンスを導くことができるかどうかを問う。
PKKittens(PK)カーネルは、最大2.33倍の並列ワークロードを実現する。
論文 参考訳(メタデータ) (2025-11-17T21:48:33Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - Geak: Introducing Triton Kernel AI Agent & Evaluation Benchmarks [11.253534066141668]
パフォーマンスと生産性の要求を満たすため、低レベルのカーネル開発を自動化することが不可欠である。
主要なクラウドプロバイダ、半導体企業、研究機関は現在、GPUのためのAI駆動コード生成に多大な投資をしている。
本稿では,TritonベースのGPUカーネルとGAAK(効率的なAI中心GPUカーネルの生成)の評価スイートを提案する。
論文 参考訳(メタデータ) (2025-07-31T02:26:58Z) - ThunderKittens: Simple, Fast, and Adorable AI Kernels [43.32681787348603]
We present ThunderKittens (TK), a framework for write performanceant AI kernels while rest to use and maintain。
我々は、さまざまなAI操作に対して、以前のカーネルと一致するか、より優れているカーネルを提供することで、TKの価値を示す。
論文 参考訳(メタデータ) (2024-10-27T10:07:16Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。