Fugu-MT 論文翻訳(概要): HetCCL: Accelerating LLM Training with Heterogeneous GPUs

論文の概要: HetCCL: Accelerating LLM Training with Heterogeneous GPUs

arxiv url: http://arxiv.org/abs/2601.22585v1
Date: Fri, 30 Jan 2026 05:31:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-02 18:28:15.24739
Title: HetCCL: Accelerating LLM Training with Heterogeneous GPUs
Title（参考訳）: HetCCL: 異種GPUによるLCMトレーニングの高速化
Authors: Heehoon Kim, Jaehwan Lee, Taejeoung Kim, Jongwon Park, Jinpyo Kim, Pyongwon Suh, Ryan H. Choi, Sangwoo Lee, Jaejin Lee,
Abstract要約: HetCCLは、ベンダー固有のバックエンドを統一し、ドライバの変更を必要とせずに、GPU間でRDMAベースの通信を可能にする集合通信ライブラリである。 HetCCLは、均一なセットアップでNCCLとRCCLのパフォーマンスを一致させ、異種環境において一意にスケーリングする。
参考スコア（独自算出の注目度）: 5.820335672510985
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rapid growth of large language models is driving organizations to expand their GPU clusters, often with GPUs from multiple vendors. However, current deep learning frameworks lack support for collective communication across heterogeneous GPUs, leading to inefficiency and higher costs. We present HetCCL, a collective communication library that unifies vendor-specific backends and enables RDMA-based communication across GPUs without requiring driver modifications. HetCCL introduces two novel mechanisms that enable cross-vendor communication while leveraging optimized vendor libraries, NVIDIA NCCL and AMD RCCL. Evaluations on a multi-vendor GPU cluster show that HetCCL matches NCCL and RCCL performance in homogeneous setups while uniquely scaling in heterogeneous environments, enabling practical, high-performance training with both NVIDIA and AMD GPUs without changes to existing deep learning applications.
Abstract（参考訳）: 大規模言語モデルの急速な成長は、組織にGPUクラスタの拡大を促している。しかし、現在のディープラーニングフレームワークでは、異種GPU間での集合通信のサポートが欠如しており、非効率性とコストの上昇につながっている。我々は,ベンダー固有のバックエンドを統一し,ドライバの変更を必要とせず,GPU間のRDMAベースの通信を可能にする,集合通信ライブラリHetCCLを提案する。 HetCCLは、最適化されたベンダーライブラリであるNVIDIA NCCLとAMD RCCLを活用しながら、ベンダー間通信を可能にする2つの新しいメカニズムを導入している。マルチベンダGPUクラスタの評価によると、HetCCLはNCCLとRCCLのパフォーマンスを均質なセットアップで一致させると同時に、異種環境のユニークなスケーリングを実現し、既存のディープラーニングアプリケーションを変更することなくNVIDIAとAMDの両方のGPUによる実用的なハイパフォーマンストレーニングを可能にする。

関連論文リスト

GPU-Initiated Networking for NCCL [0.7990599798388804]
従来のGPU通信は、CPUがすべての通信操作をオーケストレーションするホスト開始モデルに従っている。本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
論文参考訳（メタデータ） (2025-11-19T03:36:03Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。 CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文参考訳（メタデータ） (2025-09-24T07:54:01Z)
ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [22.940404796500985]
分散学習LLMのためのメモリ効率最適化アルゴリズムを提案する。新しい処理を計算しながら遅延勾配を同期することにより、ACCOはGPUアイドル時間を短縮し、異種ハードウェアをサポートする。 ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文参考訳（メタデータ） (2024-06-03T08:23:45Z)
RecDCL: Dual Contrastive Learning for Recommendation [65.6236784430981]
本稿では、RecDCLという2つのコントラスト学習推薦フレームワークを提案する。 RecDCLでは、FCLの目的は、ユーザとイテムの正のペアに対する冗長なソリューションを排除することである。 BCLの目的は、表現の堅牢性を高めるために出力ベクトルにコントラスト埋め込みを生成するために利用される。
論文参考訳（メタデータ） (2024-01-28T11:51:09Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Synthesizing Collective Communication Algorithms for Heterogeneous Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。 TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。 TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文参考訳（メタデータ） (2021-11-08T23:20:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。