論文の概要: ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels
- arxiv url: http://arxiv.org/abs/2511.13940v1
- Date: Mon, 17 Nov 2025 21:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.816623
- Title: ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels
- Title(参考訳): ParallelKittens: マルチGPUAIカーネルのシステマティックで実用的な単純化
- Authors: Stuart H. Sul, Simran Arora, Benjamin F. Spector, Christopher Ré,
- Abstract要約: 既存のシステムは、計算通信の重複によってこれを緩和するが、しばしばワークロードと新しいアクセラレータ間の理論的帯域幅を満たさない。
演算子固有のテクニックの代わりに、簡単な再利用可能な原則の小さなセットが、ワークロードの最適なパフォーマンスを導くことができるかどうかを問う。
PKKittens(PK)カーネルは、最大2.33倍の並列ワークロードを実現する。
- 参考スコア(独自算出の注目度): 40.94392896555992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inter-GPU communication has become a major bottleneck for modern AI workloads as models scale and improvements in hardware compute throughput outpace improvements in interconnect bandwidth. Existing systems mitigate this through compute-communication overlap but often fail to meet theoretical peak performance across heterogeneous workloads and new accelerators. Instead of operator-specific techniques, we ask whether a small set of simple, reusable principles can systematically guide the design of optimal multi-GPU kernels. We present ParallelKittens (PK), a minimal CUDA framework that drastically simplifies the development of overlapped multi-GPU kernels. PK extends the ThunderKittens framework and embodies the principles of multi-GPU kernel design through eight core primitives and a unified programming template, derived from a comprehensive analysis of the factors that govern multi-GPU performance$\unicode{x2014}$data-transfer mechanisms, resource scheduling, and design overheads. We validate PK on both Hopper and Blackwell architectures. With fewer than 50 lines of device code, PK achieves up to $2.33 \times$ speedup for data- and tensor-parallel workloads, $4.08 \times$ for sequence-parallel workloads, and $1.22 \times$ for expert-parallel workloads.
- Abstract(参考訳): モデルスケールとハードウェアコンピュートスループットの改善が相互接続帯域幅の改善を上回っているため、GPU間通信は現代のAIワークロードの大きなボトルネックとなっている。
既存のシステムは計算通信の重複によってこれを緩和するが、不均一なワークロードや新しいアクセラレーターで理論的なピーク性能を達成できないことが多い。
演算子固有の技術の代わりに、簡単な再利用可能な原則の小さなセットが最適なマルチGPUカーネルの設計を体系的に導くことができるかどうかを問う。
重なり合うマルチGPUカーネルの開発を大幅に単純化する最小限のCUDAフレームワークであるParallelKittens (PK)を提案する。
PKはThunderKittensフレームワークを拡張し、マルチGPUカーネル設計の原則を8つのコアプリミティブと統一プログラミングテンプレートを通じて具現化している。
ホッパーアーキテクチャとブラックウェルアーキテクチャの両方でPKを検証する。
50行未満のデバイスコードで、PKはデータおよびテンソル並列ワークロードの2.33 \times$スピードアップ、シーケンス並列ワークロードの4.08 \times$、エキスパート並列ワークロードの1.22 \times$を達成する。
関連論文リスト
- Iris: First-Class Multi-GPU Programming Experience in Triton [0.09290947230642188]
IrisはPythonとTritonで完全に実装されたマルチGPU通信ライブラリである。
IrisはTritonのプログラミングモデルと自然に一致するタイルベースの対称メモリ抽象化を提供する。
Iris はマイクロベンチマークでほぼ最適帯域利用を実現し,PyTorch および RCCL 上で最大 1.79 倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-16T08:24:45Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication [6.557224606759151]
現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。
資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。
本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
論文 参考訳(メタデータ) (2025-06-28T01:50:13Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。
Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文 参考訳(メタデータ) (2024-07-31T08:49:06Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。