論文の概要: FusionStitching: Boosting Memory Intensive Computations for Deep
Learning Workloads
- arxiv url: http://arxiv.org/abs/2009.10924v2
- Date: Fri, 17 Dec 2021 07:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:45:54.375072
- Title: FusionStitching: Boosting Memory Intensive Computations for Deep
Learning Workloads
- Title(参考訳): FusionStitching: ディープラーニングワークロードに対するメモリ集中型計算の強化
- Authors: Zhen Zheng, Pengzhan Zhao, Guoping Long, Feiwen Zhu, Kai Zhu, Wenyi
Zhao, Lansong Diao, Jun Yang, Wei Lin
- Abstract要約: 現在のジャスト・イン・タイム(JIT)カーネルの融合とコード生成技術には制限がある。
本稿では,メモリ集約演算子を大規模GPUカーネルに融合可能なディープラーニングコンパイラFusionStitchingを提案する。
我々はFusionStitchingが最先端と比較して最大2.21倍のスピードアップを達成でき、平均1.45倍であることを示す。
- 参考スコア(独自算出の注目度): 9.976777537968795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show in this work that memory intensive computations can result in severe
performance problems due to off-chip memory access and CPU-GPU context switch
overheads in a wide range of deep learning models. For this problem, current
just-in-time (JIT) kernel fusion and code generation techniques have
limitations, such as rough fusion plan exploration strategies and limited code
generation ability. We propose FusionStitching, a deep learning compiler
capable of fusing memory intensive operators, with varied data dependencies and
non-homogeneous parallelism, into large GPU kernels to reduce global memory
access and context switch overhead automatically. FusionStitching widens the
range of operation combinations that fusion can target beyond previous JIT
works by introducing data reuse of intermediate values. It explores large
fusion spaces to decide optimal fusion plans with considerations of memory
access costs, kernel calls and resource usage constraints. FusionStitching
tunes the optimal stitching scheme with a domain-specific cost model
efficiently. Experimental results show that FusionStitching can reach up to
2.21x speedup compared to state-of-the-art, with 1.45x on average. Besides
these experimental results, we integrated our approach into a compiler product
and deployed it onto a production cluster for AI workloads with thousands of
GPUs. The system has been in operation for more than 4 months and saves 7,000
GPU hours on average for approximately 30,000 tasks per month.
- Abstract(参考訳): 本研究は,メモリ集約型計算により,チップ外メモリアクセスやCPU-GPUコンテキストスイッチのオーバーヘッドにより,幅広いディープラーニングモデルにおいて深刻な性能問題が発生することを示す。
この問題に対して、現在のジャスト・イン・タイム(JIT)カーネルの核融合とコード生成技術には、粗い融合計画探索戦略やコード生成能力の制限がある。
メモリ集約型演算子を多種多様なデータ依存と非均一並列性を持つディープラーニングコンパイラであるFusionStitchingを,大容量GPUカーネルに組み込み,グローバルメモリアクセスとコンテキストスイッチのオーバーヘッドを自動的に低減する。
FusionStitchingは、中間値のデータ再利用を導入することで、Fusionが以前のJIT作業を超えてターゲットにできる操作の組み合わせの範囲を広げる。
メモリアクセスコスト、カーネル呼び出し、リソース使用量の制約を考慮して、最適な核融合計画を決定するための大きな核融合空間を探索する。
FusionStitchingは最適な縫合スキームをドメイン固有のコストモデルで効率的に調整する。
実験の結果、FusionStitchingは最先端の1.45倍の2.21倍のスピードアップを達成した。
これらの実験結果に加えて、私たちのアプローチをコンパイラ製品に統合し、数千のGPUでAIワークロードの運用クラスタにデプロイしました。
システムは4ヶ月以上動作しており、平均で7,000gpu時間を節約し、約3万タスクを処理している。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。
Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。
我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文 参考訳(メタデータ) (2024-07-03T01:24:44Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。