Fugu-MT 論文翻訳(概要): Decoupled Model Schedule for Deep Learning Training

論文の概要: Decoupled Model Schedule for Deep Learning Training

arxiv url: http://arxiv.org/abs/2302.08005v1
Date: Thu, 16 Feb 2023 00:34:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-17 15:30:13.430911
Title: Decoupled Model Schedule for Deep Learning Training
Title（参考訳）: ディープラーニング学習のための分離モデルスケジュール
Authors: Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang
Abstract要約: 本稿では,モデル実行を定義から切り離すスケジュール言語を提案する。既存の最適化ソリューションと比較して、我々は高レベルのプリミティブを通してモデルを最適化する。評価の結果,既存の手作り最適化を体系的にスケジューリングすることで,最大3.35倍のトレーニングスループットを向上できることがわかった。
参考スコア（独自算出の注目度）: 18.168196103208327
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have seen an increase in the development of large deep learning (DL) models, which makes training efficiency crucial. Common practice is struggling with the trade-off between usability and performance. On one hand, DL frameworks such as PyTorch use dynamic graphs to facilitate model developers at a price of sub-optimal model training performance. On the other hand, practitioners propose various approaches to improving the training efficiency by sacrificing some of the flexibility, ranging from making the graph static for more thorough optimization (e.g., XLA) to customizing optimization towards large-scale distributed training (e.g., DeepSpeed and Megatron-LM). In this paper, we aim to address the tension between usability and training efficiency through separation of concerns. Inspired by DL compilers that decouple the platform-specific optimizations of a tensor-level operator from its arithmetic definition, this paper proposes a schedule language to decouple model execution from definition. Specifically, the schedule works on a PyTorch model and uses a set of schedule primitives to convert the model for common model training optimizations such as high-performance kernels, effective 3D parallelism, and efficient activation checkpointing. Compared to existing optimization solutions, we optimize the model as-needed through high-level primitives, and thus preserving programmability and debuggability for users to a large extent. Our evaluation results show that by scheduling the existing hand-crafted optimizations in a systematic way, we are able to improve training throughput by up to 3.35x on a single machine with 8 NVIDIA V100 GPUs, and by up to 1.32x on multiple machines with up to 64 GPUs, when compared to the out-of-the-box performance of DeepSpeed and Megatron-LM.
Abstract（参考訳）: 近年、大規模なディープラーニング(DL)モデルの開発が増加しており、訓練効率が重要になっている。一般的なプラクティスは、ユーザビリティとパフォーマンスのトレードオフに苦しむことです。一方、pytorchのようなdlフレームワークは動的グラフを使用して、モデル開発者を最適以下のモデルのトレーニングパフォーマンスで支援する。一方、実践者は、より徹底的な最適化(XLAなど)のためにグラフを静的にすることから、大規模分散トレーニング(DeepSpeedやMegatron-LMなど)への最適化のカスタマイズまで、柔軟性を犠牲にしてトレーニング効率を改善するための様々なアプローチを提案する。本稿では,関心の分離を通じてユーザビリティとトレーニング効率の緊張に対処することを目的とする。本稿では,テンソルレベルの演算子のプラットフォーム固有の最適化を算術的定義から切り離すDLコンパイラに着想を得て,モデル実行を定義から切り離すスケジュール言語を提案する。具体的には、スケジュールはPyTorchモデル上で動作し、一連のスケジュールプリミティブを使用して、高性能カーネル、効率的な3D並列性、効率的なアクティベーションチェックポイントなどの一般的なモデルトレーニング最適化のためのモデルを変換する。既存の最適化ソリューションと比較して、高レベルのプリミティブを通じて必要となるモデルを最適化することで、ユーザのプログラム可能性とデバッグ性を大幅に維持します。評価結果は,既存の手作り最適化を体系的にスケジューリングすることにより,DeepSpeedとMegatron-LMのアウト・オブ・ボックス性能と比較して,NVIDIA V100 GPUを8台搭載した1台のマシンで最大3.35倍,最大1.32倍のトレーニングスループットを向上できることを示す。

関連論文リスト

AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Efficient Deep Learning Board: Training Feedback Is Not All You Need [28.910266386748525]
自動性能予測とコンポーネントレコメンデーションのための革新的なディープラーニングボードであるEfficientDLを提案する。トレーニングのフィードバックがない魔法は、提案した包括的で多次元できめ細かいシステムコンポーネントデータセットから来ています。例えば、EfficientDLはResNet50、MobileNetV3、EfficientNet-B0、MaxViT-T、Swin-B、DaViT-Tといった主流モデルとシームレスに動作する。
論文参考訳（メタデータ） (2024-10-17T14:43:34Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。 RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文参考訳（メタデータ） (2023-03-08T17:51:13Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文参考訳（メタデータ） (2021-10-12T01:45:27Z)
MetaTune: Meta-Learning Based Cost Model for Fast and Efficient Auto-tuning Frameworks [0.0]
本稿では,メタ学習に基づくコストモデルであるMetaTuneを提案する。このフレームワークは、4つのCNNモデルに対して平均8～13%の予測時間を提供し、同等または低い最適化時間を持ち、クロスプラットフォームのケースでは転送学習を10%上回っている。
論文参考訳（メタデータ） (2021-02-08T13:59:08Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)
Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-08-02T02:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。