論文の概要: Tawa: Automatic Warp Specialization for Modern GPUs with Asynchronous References
- arxiv url: http://arxiv.org/abs/2510.14719v1
- Date: Thu, 16 Oct 2025 14:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.898065
- Title: Tawa: Automatic Warp Specialization for Modern GPUs with Asynchronous References
- Title(参考訳): Tawa: 非同期参照を備えたモダンGPUの自動ワープスペシャライゼーション
- Authors: Hongzheng Chen, Bin Fan, Alexander Collins, Bastian Hagedorn, Evghenii Gaburov, Masahiro Masuda, Matthew Brookhart, Chris Sullivan, Jason Knight, Zhiru Zhang, Vinod Grover,
- Abstract要約: 本稿では,ハイレベルなタイルベースプログラムからワープ特化コードを生成する自動コンパイラTawaを提案する。
Tawaiはプログラムをプロデューサとコンシューマの役割に自動的に分割し、複雑なデータフローパイプラインを管理し、侵入的なカーネル書き換えを回避します。
Tawaiは高いハードウェア利用を提供し、高度に最適化されたcuBLAS GEMMカーネルよりも1.1$times$のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 40.60208235389293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern GPUs feature specialized hardware units that enable high-performance, asynchronous dataflow execution. However, the conventional SIMT programming model is fundamentally misaligned with this task-parallel hardware, creating a significant programmability gap. While hardware-level warp specialization is the key to unlocking peak performance, it forces developers to manually orchestrate complex, low-level communication and software pipelines--a process that is labor-intensive, error-prone, and unsustainable. To address this challenge, we present Tawa, an automated compiler that systematically generates high-performance, warp-specialized code from a high-level, tile-based program. Central to our approach is a novel IR abstraction, asynchronous references (aref), which expresses warp-level communication without exposing low-level hardware details. Using this abstraction, Tawa automatically partitions programs into producer-consumer roles and manages the intricate dataflow pipeline, relieving developers of invasive kernel rewriting. Evaluation on NVIDIA H100 GPUs across representative LLM kernels shows that Tawa delivers high hardware utilization, achieving up to 1.1$\times$ speedup over highly optimized cuBLAS GEMM kernels. For attention workloads, Tawa attains 1.2$\times$ speedup over Triton and matches the performance of the hand-optimized CUTLASS C++ FlashAttention-3 kernel with far less programming effort.
- Abstract(参考訳): 最新のGPUは、高性能で非同期なデータフロー実行を可能にする特別なハードウェアユニットを備えている。
しかし、従来のSIMTプログラミングモデルは、基本的にこのタスク並列ハードウェアと不一致であり、プログラム可能性のギャップを生じさせる。
ハードウェアレベルのワープ特殊化は、ピークパフォーマンスを解放する鍵であるが、開発者は手動で複雑な低レベル通信とソフトウェアパイプラインを編成せざるを得ない。
この課題に対処するために,高レベルのタイルベースのプログラムから,ハイパフォーマンスなワープ特化コードを体系的に生成する自動コンパイラであるTawaを提案する。
我々のアプローチの中心は、新しいIR抽象化、非同期参照(aref)であり、低レベルのハードウェアの詳細を公開せずにワープレベルの通信を表現する。
この抽象化を使用することで、Tawaはプログラムをプロデューサとコンシューマの役割に自動的に分割し、複雑なデータフローパイプラインを管理し、侵入的なカーネル書き換えを回避します。
LLMカーネルをまたいだNVIDIA H100 GPUの評価によると、Tawaは高度に最適化されたcuBLAS GEMMカーネルよりも1.1$\times$のスピードアップを実現している。
TawaはTritonよりも1.2$\times$のスピードアップを実現し、手動で最適化されたCUTLASS C++ FlashAttention-3カーネルのパフォーマンスと、はるかに少ないプログラミング作業で一致している。
関連論文リスト
- Dato: A Task-Based Programming Model for Dataflow Accelerators [13.87015257740592]
データフローアクセラレーターのためのPython組み込みタスクベースのプログラミングモデルであるDatoを紹介する。
Datoはデータ通信とシャーディングをファーストクラスのコンストラクトに高める。
Datoは高いパフォーマンスを実現し、最適化されたコードを書くことの負担を大幅に削減します。
論文 参考訳(メタデータ) (2025-09-08T15:22:51Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。
TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。
我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-04-24T14:08:49Z) - ML-Triton, A Multi-Level Compilation and Language Extension to Triton GPU Programming [2.4665562732779773]
Tritonは、より高いレベルでプログラミングによって、よりユーザフレンドリでポータブルな代替手段を提供するDSLです。
マルチレベルのコンパイルフローとプログラミングインタフェースを備えたML-Tritonを提案する。
提案手法は,Intel GPU上でのエキスパート記述カーネルの95%以上の性能を実現する。
論文 参考訳(メタデータ) (2025-03-19T08:31:39Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。