論文の概要: Design Space Exploration of DMA based Finer-Grain Compute Communication Overlap
- arxiv url: http://arxiv.org/abs/2512.10236v1
- Date: Thu, 11 Dec 2025 02:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.172037
- Title: Design Space Exploration of DMA based Finer-Grain Compute Communication Overlap
- Title(参考訳): DMAを用いたFiner-Grain Compute Communication Overlapの設計空間探索
- Authors: Shagnik Pal, Shaizeen Aga, Suchita Pati, Mahzabeen Islam, Lizy K. John,
- Abstract要約: より微細な計算通信の重複をFiCCOと呼ぶ。
我々は,FiCCOがシャードレベルでのみ実行スケジュールの広い設計空間をオープンにしていることを示す。
次に、これらの非効率損失の詳細な特徴を提示し、FiCCOスケジュールの設計空間を提示し、最終的に共用非効率シグネチャでスケジュールをオーバーレイする。
- 参考スコア(独自算出の注目度): 0.8763937152756086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As both ML training and inference are increasingly distributed, parallelization techniques that shard (divide) ML model across GPUs of a distributed system, are often deployed. With such techniques, there is a high prevalence of data-dependent communication and computation operations where communication is exposed, leaving as high as 1.7x ideal performance on the table. Prior works harness the fact that ML model state and inputs are already sharded, and employ careful overlap of individual computation/communication shards. While such coarse-grain overlap is promising, in this work, we instead make a case for finer-grain compute-communication overlap which we term FiCCO, where we argue for finer-granularity, one-level deeper overlap than at shard-level, to unlock compute/communication overlap for a wider set of network topologies, finer-grain dataflow and more. We show that FiCCO opens up a wider design space of execution schedules than possible at shard-level alone. At the same time, decomposition of ML operations into smaller operations (done in both shard-based and finer-grain techniques) causes operation-level inefficiency losses. To balance the two, we first present a detailed characterization of these inefficiency losses, then present a design space of FiCCO schedules, and finally overlay the schedules with concomitant inefficiency signatures. Doing so helps us design heuristics that frameworks and runtimes can harness to select bespoke FiCCO schedules based on the nature of underlying ML operations. Finally, to further minimize contention inefficiencies inherent with operation overlap, we offload communication to GPU DMA engines. We evaluate several scenarios from realistic ML deployments and demonstrate that our proposed bespoke schedules deliver up to 1.6x speedup and our heuristics provide accurate guidance in 81% of unseen scenarios.
- Abstract(参考訳): MLトレーニングと推論の両方が分散するにつれて、分散システムのGPU間でシャード(分割)のMLモデルを分割する並列化技術がしばしばデプロイされる。
このような手法により、通信が露出するデータ依存の通信や計算処理の頻度が高くなり、テーブル上では1.7倍の理想的な性能が保たれる。
以前の作業では、MLモデルの状態と入力がすでにシャード化されており、個々の計算/通信シャードの慎重に重複しているという事実を活用している。
このような粗粒オーバーラップは有望であるが、本研究では、より広いネットワークトポロジ、より細粒なデータフローの計算/通信オーバーラップを解き明かすために、細粒度、シャードレベルよりも一段深いオーバーラップを議論するFiCCOという計算/通信オーバーラップを例に挙げる。
我々は,FiCCOがシャードレベルでのみ実行スケジュールの広い設計空間をオープンにしていることを示す。
同時に、ML操作を小さな操作(シャードベースとファイングライン技術の両方で)に分解すると、操作レベルの非効率性が失われる。
2つのバランスをとるために、まずこれらの非効率損失の詳細な特徴を提示し、次にFiCCOスケジュールの設計空間を提示し、最後に共用非効率シグネチャでスケジュールをオーバーレイする。
そうすることで、フレームワークやランタイムが、基盤となるML操作の性質に基づいて、気まぐれなFiCCOスケジュールを選択するために使用できるように、ヒューリスティックな設計を支援します。
最後に、演算重複に固有の競合非効率をさらに最小化するために、GPU DMAエンジンに通信をオフロードする。
私たちは、現実的なMLデプロイメントからいくつかのシナリオを評価し、提案したbespokeスケジュールが1.6倍のスピードアップを実現し、ヒューリスティックスが81%の未確認シナリオで正確なガイダンスを提供することを示した。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts [8.80408909878008]
Mixture-of-experts (MoE) は、大規模な言語モデルを1兆以上のパラメータに拡張するために広く利用されている。
既存の方法は、オーバーラップする計算でMoE層内の通信をパイプライン化することを提案している。
細粒度通信-計算オーバラップを最適化したMOEシステムであるCOMETを提案する。
論文 参考訳(メタデータ) (2025-02-27T06:36:45Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。