Fugu-MT 論文翻訳(概要): MSCCL++: Rethinking GPU Communication Abstractions for Cutting-edge AI Applications

論文の概要: MSCCL++: Rethinking GPU Communication Abstractions for Cutting-edge AI Applications

arxiv url: http://arxiv.org/abs/2504.09014v1
Date: Fri, 11 Apr 2025 23:51:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 02:05:29.364007
Title: MSCCL++: Rethinking GPU Communication Abstractions for Cutting-edge AI Applications
Title（参考訳）: MSCCL++: 最先端AIアプリケーションのためのGPU通信抽象化の再考
Authors: Aashaka Shah, Abhinav Jangda, Binyang Li, Caio Rocha, Changho Hwang, Jithin Jose, Madan Musuvathi, Olli Saarikivi, Peng Cheng, Qinghua Zhou, Roshan Dathathri, Saeed Maleki, Ziyue Yang,
Abstract要約: 最新の最先端AIアプリケーションは、急速に進化し、異質で誕生したハードウェアデバイス上で開発されている。これは、新しいハードウェアからボトムアップの変更を採用するために、AIソフトウェアスタックの頻繁な再作業を必要とする。本稿では,関心事分離に基づくGPU通信の新たな抽象化であるMSCCL++を提案する。
参考スコア（独自算出の注目度）: 9.28608047116196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern cutting-edge AI applications are being developed over fast-evolving, heterogeneous, nascent hardware devices. This requires frequent reworking of the AI software stack to adopt bottom-up changes from new hardware, which takes time for general-purpose software libraries. Consequently, real applications often develop custom software stacks optimized for their specific workloads and hardware. Custom stacks help quick development and optimization, but incur a lot of redundant efforts across applications in writing non-portable code. This paper discusses an alternative communication library interface for AI applications that offers both portability and performance by reducing redundant efforts while maintaining flexibility for customization. We present MSCCL++, a novel abstraction of GPU communication based on separation of concerns: (1) a primitive interface provides a minimal hardware abstraction as a common ground for software and hardware developers to write custom communication, and (2) higher-level portable interfaces and specialized implementations enable optimization for different hardware environments. This approach makes the primitive interface reusable across applications while enabling highly flexible optimization. Compared to state-of-the-art baselines (NCCL, RCCL, and MSCCL), MSCCL++ achieves speedups of up to 3.8$\times$ for collective communication and up to 15\% for real-world AI inference workloads. MSCCL++ is in production of multiple AI services provided by Microsoft Azure, and is also adopted by RCCL, the GPU collective communication library maintained by AMD. MSCCL++ is open-source and available at https://github.com/microsoft/mscclpp.
Abstract（参考訳）: 最新の最先端AIアプリケーションは、急速に進化し、異質で誕生したハードウェアデバイス上で開発されている。これにより、AIソフトウェアスタックを頻繁にリワークして、汎用ソフトウェアライブラリに時間がかかる新しいハードウェアからのボトムアップ変更を採用する必要がある。そのため、実際のアプリケーションは、特定のワークロードやハードウェアに最適化されたカスタムソフトウェアスタックを開発することが多い。カスタムスタックは、迅速な開発と最適化に役立ちますが、非可搬性コードの記述において、アプリケーション間で多くの冗長な労力がかかります。本稿では、カスタマイズの柔軟性を維持しつつ、冗長な労力を削減し、ポータビリティとパフォーマンスの両方を提供するAIアプリケーションのための代替通信ライブラリインタフェースについて論じる。 1)プリミティブインターフェースは、ソフトウェアやハードウェア開発者がカスタムなコミュニケーションを書くための共通基盤として最小限のハードウェア抽象化を提供し、(2)高レベルなポータブルインターフェースと特殊な実装は、異なるハードウェア環境に対して最適化を可能にする。このアプローチにより、プリミティブインターフェースはアプリケーション間で再利用でき、高度に柔軟な最適化を可能にします。最先端のベースライン(NCCL、RCCL、MSCCL)と比較して、MSCCL++は、集合通信では最大3.8$\times$、現実世界のAI推論ワークロードでは最大15.%のスピードアップを実現している。 MSCCL++はMicrosoft Azureが提供する複数のAIサービスを運用しており、AMDが管理するGPU集合通信ライブラリであるRCCLにも採用されている。 MSCCL++はオープンソースでhttps://github.com/microsoft/mscclpp.comから入手できる。

関連論文リスト

HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。 NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文参考訳（メタデータ） (2025-06-12T06:48:33Z)
FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation [6.284874558004134]
我々は,タイルワイドオーバーラップ,干渉のない計算,通信非依存を特徴とする軽量な設計であるFlashOverlapを提案する。実験の結果、このような軽量な設計は最大1.65倍のスピードアップを実現しており、ほとんどの場合、既存の作業よりも優れていた。
論文参考訳（メタデータ） (2025-04-28T06:37:57Z)
Designing and Implementing a Generator Framework for a SIMD Abstraction Library [53.84310825081338]
SIMD抽象化ライブラリを生成するための新しいエンドツーエンドフレームワークであるTSLGenを提案する。私たちのフレームワークは既存のライブラリに匹敵するもので、同じパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-07-26T13:25:38Z)
An approach to performance portability through generic programming [0.0]
この研究は、低レベルおよび冗長なプログラミングツールを、C++のテンプレートメタプログラミングに基づく高レベルな汎用アルゴリズムに統合するための設計アプローチを説明する。これにより、HPCのハードウェアの多様化期間において、科学ソフトウェアは保守性と効率が向上する。
論文参考訳（メタデータ） (2023-11-08T21:54:43Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems [1.885335997132172]
プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
論文参考訳（メタデータ） (2023-03-15T18:37:18Z)
QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。 QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文参考訳（メタデータ） (2022-10-07T16:35:16Z)
Towards making the most of NLP-based device mapping optimization for OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文参考訳（メタデータ） (2022-08-30T10:20:55Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。