論文の概要: Decoupled Model Schedule for Deep Learning Training
- arxiv url: http://arxiv.org/abs/2302.08005v1
- Date: Thu, 16 Feb 2023 00:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:30:13.430911
- Title: Decoupled Model Schedule for Deep Learning Training
- Title(参考訳): ディープラーニング学習のための分離モデルスケジュール
- Authors: Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang,
Yida Wang
- Abstract要約: 本稿では,モデル実行を定義から切り離すスケジュール言語を提案する。
既存の最適化ソリューションと比較して、我々は高レベルのプリミティブを通してモデルを最適化する。
評価の結果,既存の手作り最適化を体系的にスケジューリングすることで,最大3.35倍のトレーニングスループットを向上できることがわかった。
- 参考スコア(独自算出の注目度): 18.168196103208327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen an increase in the development of large deep learning
(DL) models, which makes training efficiency crucial. Common practice is
struggling with the trade-off between usability and performance. On one hand,
DL frameworks such as PyTorch use dynamic graphs to facilitate model developers
at a price of sub-optimal model training performance. On the other hand,
practitioners propose various approaches to improving the training efficiency
by sacrificing some of the flexibility, ranging from making the graph static
for more thorough optimization (e.g., XLA) to customizing optimization towards
large-scale distributed training (e.g., DeepSpeed and Megatron-LM).
In this paper, we aim to address the tension between usability and training
efficiency through separation of concerns. Inspired by DL compilers that
decouple the platform-specific optimizations of a tensor-level operator from
its arithmetic definition, this paper proposes a schedule language to decouple
model execution from definition. Specifically, the schedule works on a PyTorch
model and uses a set of schedule primitives to convert the model for common
model training optimizations such as high-performance kernels, effective 3D
parallelism, and efficient activation checkpointing. Compared to existing
optimization solutions, we optimize the model as-needed through high-level
primitives, and thus preserving programmability and debuggability for users to
a large extent. Our evaluation results show that by scheduling the existing
hand-crafted optimizations in a systematic way, we are able to improve training
throughput by up to 3.35x on a single machine with 8 NVIDIA V100 GPUs, and by
up to 1.32x on multiple machines with up to 64 GPUs, when compared to the
out-of-the-box performance of DeepSpeed and Megatron-LM.
- Abstract(参考訳): 近年、大規模なディープラーニング(DL)モデルの開発が増加しており、訓練効率が重要になっている。
一般的なプラクティスは、ユーザビリティとパフォーマンスのトレードオフに苦しむことです。
一方、pytorchのようなdlフレームワークは動的グラフを使用して、モデル開発者を最適以下のモデルのトレーニングパフォーマンスで支援する。
一方、実践者は、より徹底的な最適化(XLAなど)のためにグラフを静的にすることから、大規模分散トレーニング(DeepSpeedやMegatron-LMなど)への最適化のカスタマイズまで、柔軟性を犠牲にしてトレーニング効率を改善するための様々なアプローチを提案する。
本稿では,関心の分離を通じてユーザビリティとトレーニング効率の緊張に対処することを目的とする。
本稿では,テンソルレベルの演算子のプラットフォーム固有の最適化を算術的定義から切り離すDLコンパイラに着想を得て,モデル実行を定義から切り離すスケジュール言語を提案する。
具体的には、スケジュールはPyTorchモデル上で動作し、一連のスケジュールプリミティブを使用して、高性能カーネル、効率的な3D並列性、効率的なアクティベーションチェックポイントなどの一般的なモデルトレーニング最適化のためのモデルを変換する。
既存の最適化ソリューションと比較して、高レベルのプリミティブを通じて必要となるモデルを最適化することで、ユーザのプログラム可能性とデバッグ性を大幅に維持します。
評価結果は,既存の手作り最適化を体系的にスケジューリングすることにより,DeepSpeedとMegatron-LMのアウト・オブ・ボックス性能と比較して,NVIDIA V100 GPUを8台搭載した1台のマシンで最大3.35倍,最大1.32倍のトレーニングスループットを向上できることを示す。
関連論文リスト
- Efficient Deep Learning Board: Training Feedback Is Not All You Need [28.910266386748525]
自動性能予測とコンポーネントレコメンデーションのための革新的なディープラーニングボードであるEfficientDLを提案する。
トレーニングのフィードバックがない魔法は、提案した包括的で多次元できめ細かいシステムコンポーネントデータセットから来ています。
例えば、EfficientDLはResNet50、MobileNetV3、EfficientNet-B0、MaxViT-T、Swin-B、DaViT-Tといった主流モデルとシームレスに動作する。
論文 参考訳(メタデータ) (2024-10-17T14:43:34Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。
既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。
RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文 参考訳(メタデータ) (2023-03-08T17:51:13Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - MetaTune: Meta-Learning Based Cost Model for Fast and Efficient
Auto-tuning Frameworks [0.0]
本稿では,メタ学習に基づくコストモデルであるMetaTuneを提案する。
このフレームワークは、4つのCNNモデルに対して平均8~13%の予測時間を提供し、同等または低い最適化時間を持ち、クロスプラットフォームのケースでは転送学習を10%上回っている。
論文 参考訳(メタデータ) (2021-02-08T13:59:08Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。