論文の概要: RAF: Holistic Compilation for Deep Learning Model Training
- arxiv url: http://arxiv.org/abs/2303.04759v1
- Date: Wed, 8 Mar 2023 17:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:02:40.017962
- Title: RAF: Holistic Compilation for Deep Learning Model Training
- Title(参考訳): RAF:ディープラーニングモデルトレーニングのためのホロスティックコンパイル
- Authors: Cody Hao Yu, Haozheng Fan, Guangtai Huang, Zhen Jia, Yizhi Liu, Jie
Wang, Zach Zheng, Yuan Zhou, Haichen Shen, Junru Shao, Mu Li, Yida Wang
- Abstract要約: 本稿では,学習のための深層学習コンパイラであるRAFについて述べる。
既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。
RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
- 参考スコア(独自算出の注目度): 17.956035630476173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep learning is pervasive in modern applications, many deep learning
frameworks are presented for deep learning practitioners to develop and train
DNN models rapidly. Meanwhile, as training large deep learning models becomes a
trend in recent years, the training throughput and memory footprint are getting
crucial. Accordingly, optimizing training workloads with compiler optimizations
is inevitable and getting more and more attentions. However, existing deep
learning compilers (DLCs) mainly target inference and do not incorporate
holistic optimizations, such as automatic differentiation and automatic mixed
precision, in training workloads.
In this paper, we present RAF, a deep learning compiler for training. Unlike
existing DLCs, RAF accepts a forward model and in-house generates a training
graph. Accordingly, RAF is able to systematically consolidate graph
optimizations for performance, memory and distributed training. In addition, to
catch up to the state-of-the-art performance with hand-crafted kernel libraries
as well as tensor compilers, RAF proposes an operator dialect mechanism to
seamlessly integrate all possible kernel implementations. We demonstrate that
by in-house training graph generation and operator dialect mechanism, we are
able to perform holistic optimizations and achieve either better training
throughput or larger batch size against PyTorch (eager and torchscript mode),
XLA, and DeepSpeed for popular transformer models on GPUs.
- Abstract(参考訳): ディープラーニングは現代のアプリケーションで広く普及しているため、ディープラーニングの実践者がDNNモデルの開発とトレーニングを迅速に行うために、多くのディープラーニングフレームワークが提示されている。
一方,近年,大規模ディープラーニングモデルのトレーニングがトレンドとなっているため,トレーニングスループットとメモリフットプリントが重要になっている。
したがって、コンパイラ最適化によるトレーニングワークロードの最適化は必然的であり、ますます注目を集めている。
しかし、既存のディープラーニングコンパイラ(DLC)は、主に推論を対象とし、自動微分や自動混合精度といった全体最適化をトレーニングワークロードに含まない。
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。
既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。
したがって、RAFはパフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
さらに、手作りのカーネルライブラリやテンソルコンパイラによる最先端のパフォーマンスに追いつくために、RAFは全ての可能なカーネル実装をシームレスに統合する演算子弁証機構を提案する。
インハウストレーニンググラフ生成とオペレータ弁証機構によって,gpu上の一般的なトランスフォーマモデルに対して,総合的な最適化を行うことで,pytorch(eagerおよびtorchscriptモード),xla,deepspeedに対するトレーニングスループットの向上やバッチサイズの向上を実現できることを実証した。
関連論文リスト
- CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。
CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Deep Learning Models on CPUs: A Methodology for Efficient Training [1.7150798380270715]
本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。
これは、Intel CPU上でディープラーニングモデルのトレーニングを最適化する手法と、ProfileDNNと呼ばれるツールキットを提供する。
論文 参考訳(メタデータ) (2022-06-20T22:42:14Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。