論文の概要: FusionStitching: Boosting Memory Intensive Computations for Deep
Learning Workloads
- arxiv url: http://arxiv.org/abs/2009.10924v2
- Date: Fri, 17 Dec 2021 07:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:45:54.375072
- Title: FusionStitching: Boosting Memory Intensive Computations for Deep
Learning Workloads
- Title(参考訳): FusionStitching: ディープラーニングワークロードに対するメモリ集中型計算の強化
- Authors: Zhen Zheng, Pengzhan Zhao, Guoping Long, Feiwen Zhu, Kai Zhu, Wenyi
Zhao, Lansong Diao, Jun Yang, Wei Lin
- Abstract要約: 現在のジャスト・イン・タイム(JIT)カーネルの融合とコード生成技術には制限がある。
本稿では,メモリ集約演算子を大規模GPUカーネルに融合可能なディープラーニングコンパイラFusionStitchingを提案する。
我々はFusionStitchingが最先端と比較して最大2.21倍のスピードアップを達成でき、平均1.45倍であることを示す。
- 参考スコア(独自算出の注目度): 9.976777537968795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show in this work that memory intensive computations can result in severe
performance problems due to off-chip memory access and CPU-GPU context switch
overheads in a wide range of deep learning models. For this problem, current
just-in-time (JIT) kernel fusion and code generation techniques have
limitations, such as rough fusion plan exploration strategies and limited code
generation ability. We propose FusionStitching, a deep learning compiler
capable of fusing memory intensive operators, with varied data dependencies and
non-homogeneous parallelism, into large GPU kernels to reduce global memory
access and context switch overhead automatically. FusionStitching widens the
range of operation combinations that fusion can target beyond previous JIT
works by introducing data reuse of intermediate values. It explores large
fusion spaces to decide optimal fusion plans with considerations of memory
access costs, kernel calls and resource usage constraints. FusionStitching
tunes the optimal stitching scheme with a domain-specific cost model
efficiently. Experimental results show that FusionStitching can reach up to
2.21x speedup compared to state-of-the-art, with 1.45x on average. Besides
these experimental results, we integrated our approach into a compiler product
and deployed it onto a production cluster for AI workloads with thousands of
GPUs. The system has been in operation for more than 4 months and saves 7,000
GPU hours on average for approximately 30,000 tasks per month.
- Abstract(参考訳): 本研究は,メモリ集約型計算により,チップ外メモリアクセスやCPU-GPUコンテキストスイッチのオーバーヘッドにより,幅広いディープラーニングモデルにおいて深刻な性能問題が発生することを示す。
この問題に対して、現在のジャスト・イン・タイム(JIT)カーネルの核融合とコード生成技術には、粗い融合計画探索戦略やコード生成能力の制限がある。
メモリ集約型演算子を多種多様なデータ依存と非均一並列性を持つディープラーニングコンパイラであるFusionStitchingを,大容量GPUカーネルに組み込み,グローバルメモリアクセスとコンテキストスイッチのオーバーヘッドを自動的に低減する。
FusionStitchingは、中間値のデータ再利用を導入することで、Fusionが以前のJIT作業を超えてターゲットにできる操作の組み合わせの範囲を広げる。
メモリアクセスコスト、カーネル呼び出し、リソース使用量の制約を考慮して、最適な核融合計画を決定するための大きな核融合空間を探索する。
FusionStitchingは最適な縫合スキームをドメイン固有のコストモデルで効率的に調整する。
実験の結果、FusionStitchingは最先端の1.45倍の2.21倍のスピードアップを達成した。
これらの実験結果に加えて、私たちのアプローチをコンパイラ製品に統合し、数千のGPUでAIワークロードの運用クラスタにデプロイしました。
システムは4ヶ月以上動作しており、平均で7,000gpu時間を節約し、約3万タスクを処理している。
関連論文リスト
- BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [89.52560850737663]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。