論文の概要: Iris: First-Class Multi-GPU Programming Experience in Triton
- arxiv url: http://arxiv.org/abs/2511.12500v1
- Date: Sun, 16 Nov 2025 08:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.281684
- Title: Iris: First-Class Multi-GPU Programming Experience in Triton
- Title(参考訳): Iris: TritonでファーストクラスのマルチGPUプログラミングの経験
- Authors: Muhammad Awad, Muhammad Osama, Brandon Potter,
- Abstract要約: IrisはPythonとTritonで完全に実装されたマルチGPU通信ライブラリである。
IrisはTritonのプログラミングモデルと自然に一致するタイルベースの対称メモリ抽象化を提供する。
Iris はマイクロベンチマークでほぼ最適帯域利用を実現し,PyTorch および RCCL 上で最大 1.79 倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 0.09290947230642188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-GPU programming traditionally requires developers to navigate complex trade-offs between performance and programmability. High-performance implementations typically rely on low-level HIP/CUDA communication libraries that demand substantial engineering effort for even basic overlap patterns, while simpler abstractions often sacrifice performance. We present Iris, a multi-GPU communication library implemented entirely in Python and Triton that eliminates this trade-off. Iris provides tile-based symmetric memory abstractions that naturally align with Triton's programming model, enabling developers to write single-source kernels that seamlessly interleave computation and communication. We demonstrate a taxonomy of compute-communication overlap patterns--from bulk-synchronous to fine-grained workgroup specialization--that can be implemented with minimal code changes in Iris, often requiring just a few additional lines within the same Triton kernel. Our evaluation shows that Iris achieves near-optimal bandwidth utilization in microbenchmarks and delivers up to 1.79x speedup over PyTorch and RCCL for GEMM+All-Scatter workloads, demonstrating that high-level implementations can match or exceed heavily-optimized libraries while dramatically simplifying multi-GPU programming.
- Abstract(参考訳): 従来のマルチGPUプログラミングでは、開発者はパフォーマンスとプログラマビリティの間の複雑なトレードオフをナビゲートする必要がある。
ハイパフォーマンスな実装は一般的に低レベルなHIP/CUDA通信ライブラリに依存しており、基本的なオーバーラップパターンでもかなりのエンジニアリング作業を必要とするが、単純な抽象化はパフォーマンスを犠牲にすることが多い。
我々は、PythonとTritonで完全に実装されたマルチGPU通信ライブラリであるIrisを紹介し、このトレードオフを取り除く。
IrisはTritonのプログラミングモデルと自然に一致するタイルベースの対称メモリ抽象化を提供しており、開発者は計算と通信をシームレスにインターリーブする単一ソースカーネルを記述できる。
我々は、バルク同期からきめ細かなワークグループの特殊化に至るまで、Irisで最小限のコード変更で実装できる計算通信重複パターンの分類を実証する。
評価の結果、Irisはマイクロベンチマークのほぼ最適帯域利用を実現し、GEMM+All-Scatterの負荷に対してPyTorchとRCCLの最大1.79倍の高速化を実現し、高レベル実装が過度に最適化されたライブラリと一致し、マルチGPUプログラミングを劇的に単純化できることを示した。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Efficient and Adaptable Overlapping for Computation and Communication via Signaling and Reordering [13.185314408519107]
生成モデルは様々なアプリケーションで顕著な成功を収め、マルチGPUコンピューティングへの需要が高まっている。
本稿では,新しいシグナリング機構を用いたFlashOverlapを提案する。
実験の結果、FlashOverlapはオーバーラップによって最大1.65倍のスピードアップを実現しており、ほとんどの場合、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2025-04-28T06:37:57Z) - TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators [59.625889531331815]
Tritonは、効率的なGPUカーネルを構築するために設計されたハイレベルなPythonライクな言語である。
従来のコード生成のための大規模言語モデル(LLM)の進歩にもかかわらず、これらのモデルは正確でパフォーマンスに最適化されたトリトンコードを生成するのに苦労している。
本稿では,Triton演算子生成のための総合ベンチマークであるTritonBenchを紹介する。
論文 参考訳(メタデータ) (2025-02-20T17:21:27Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。