論文の概要: Optimal Software Pipelining and Warp Specialization for Tensor Core GPUs
- arxiv url: http://arxiv.org/abs/2512.18134v1
- Date: Fri, 19 Dec 2025 23:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.205417
- Title: Optimal Software Pipelining and Warp Specialization for Tensor Core GPUs
- Title(参考訳): テンソルコアGPUのための最適ソフトウェアパイプライニングとワープスペシャライゼーション
- Authors: Rupanshu Soi, Rohan Yadav, Fredrik Kjolstad, Alex Aiken, Maryam Mehri Dehnavi, Michael Garland, Michael Bauer,
- Abstract要約: 本稿では,共同最適化問題として,ソフトウェアパイプライン (SWP) とワープ特殊化 (WS) の新たな定式化を導入する。
Twillは、大規模な反復プログラムに対して最適なSWPとWSスケジュールを自動的に導き出す最初のシステムである。
我々は、Twillが再発見でき、その結果、SWPとWSのスケジュールが、NVIDIA HopperとBlackwellのGPUアーキテクチャの両方で、Flash Attentionの専門家によって手作業で開発されていることを示す。
- 参考スコア(独自算出の注目度): 6.0625823857462064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU architectures have continued to grow in complexity, with recent incarnations introducing increasingly powerful fixed-function units for matrix multiplication and data movement to accompany highly parallel general-purpose cores. To fully leverage these machines, software must use sophisticated schedules that maximally utilize all hardware resources. Since realizing such schedules is complex, both programmers and compilers routinely employ program transformations, such as software pipelining (SWP) and warp specialization (WS), to do so in practice. However, determining how best to use SWP and WS in combination is a challenging problem that is currently handled through a mix of brittle compilation heuristics and fallible human intuition, with little insight into the space of solutions. To remedy this situation, we introduce a novel formulation of SWP and WS as a joint optimization problem that can be solved holistically by off-the-shelf constraint solvers. We reify our approach in Twill, the first system that automatically derives optimal SWP and WS schedules for a large class of iterative programs. Twill is heuristic-free, easily extensible to new GPU architectures, and guaranteed to produce optimal schedules. We show that Twill can rediscover, and thereby prove optimal, the SWP and WS schedules manually developed by experts for Flash Attention on both the NVIDIA Hopper and Blackwell GPU architectures.
- Abstract(参考訳): GPUアーキテクチャは複雑化を続けており、最近は行列乗算やデータ移動のための強力な固定機能ユニットが、非常に並列な汎用コアと共に導入されている。
これらのマシンを完全に活用するには、ソフトウェアはすべてのハードウェアリソースを最大限に活用する洗練されたスケジュールを使用する必要がある。
このようなスケジュールを実現するのは複雑であるため、プログラマもコンパイラもソフトウェアパイプライン (SWP) やワープ特殊化 (WS) といったプログラム変換を実際に行うことが多い。
しかし、SWP と WS をどのように組み合わせて使うのが最適かを決めることは、現在、不安定なコンパイルヒューリスティックとフォールブルな人間の直観の混合によって、ソリューションの空間についてはほとんど見当たらない、難しい問題である。
この状況を改善するために, SWP と WS の新規な定式化を導入し, 既製の制約解法によって一様に解ける共同最適化問題を提案する。
我々は、大規模な反復プログラムに対して最適なSWPとWSスケジュールを自動的に導出する最初のシステムであるTwillにおける我々のアプローチを再定義する。
Twillはヒューリスティックフリーで、新しいGPUアーキテクチャに容易に拡張可能で、最適なスケジュールを生成することが保証されている。
我々は、Twillが再発見でき、その結果、SWPとWSのスケジュールが、NVIDIA HopperとBlackwellのGPUアーキテクチャの両方で、Flash Attentionの専門家によって手作業で開発されていることを示す。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Pushing the Boundary of Quantum Advantage in Hard Combinatorial Optimization with Probabilistic Computers [0.4969640751053581]
確率的コンピュータ(p-コンピュータ)が、ハード最適化問題を解決するための説得力がありスケーラブルな古典的経路を提供することを示す。
我々は3次元スピングラスに適用された2つの重要なアルゴリズム、離散時間シミュレーション量子アニール(DT-SQA)と適応並列テンパリング(APT)に焦点を当てた。
APTは非局所アイソエネルゲティッククラスタの移動によって支えられ、より良好なスケーリングを示し、最終的にはDT-SQAよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-13T12:24:13Z) - Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach [6.449961842220686]
本稿では,最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案する。
我々のフレームワークは、同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らします。
このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
論文 参考訳(メタデータ) (2025-03-12T13:00:29Z) - Differentiable Combinatorial Scheduling at Scale [18.09256072039255]
本稿では,Gumbel-Softmax微分可能なサンプリング手法を用いて,微分可能なスケジューリングフレームワークを提案する。
スケジューリングタスクの不等式制約をエンコードするために,任意の不等式制約を積極的にエンコードするテキスト制約付きGumbel Trickを導入する。
本手法は, トレーニングデータを必要とせずに, 勾配降下による効率よく, スケーラブルなスケジューリングを容易にする。
論文 参考訳(メタデータ) (2024-06-06T02:09:39Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - How Not to Give a FLOP: Combining Regularization and Pruning for
Efficient Inference [0.0]
本稿では,Deep Neural Networks(DNN)における計算複雑性の低減とより効率的な推論のための正規化とプルーニングの併用について検討する。
ネットワークプルーニングと協調して正規化を行うことにより、これらの組み合わせは2つのテクニックをそれぞれ個別に大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-03-30T16:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。