論文の概要: Optimizing Large Model Training through Overlapped Activation Recomputation
- arxiv url: http://arxiv.org/abs/2406.08756v1
- Date: Thu, 13 Jun 2024 02:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:38:10.873946
- Title: Optimizing Large Model Training through Overlapped Activation Recomputation
- Title(参考訳): オーバーラップされたアクティベーション再計算による大規模モデルトレーニングの最適化
- Authors: Ping Chen, Wenjie Zhang, Shuibing He, Yingjie Gu, Zhuwei Peng, Kexin Huang, Xuan Zhan, Weijian Chen, Yi Zheng, Zhefeng Wang, Yanlong Yin, Gang Chen,
- Abstract要約: 既存の再計算アプローチでは、実世界のモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。
これは、クリティカルトレーニングパスで要求に応じて実行されるためです。
我々は、トレーニングパイプラインで発生する通信と再計算を重複させることでオーバーヘッドを削減するために、新しい再計算フレームワーク、Lynxを設計する。
- 参考スコア(独自算出の注目度): 24.461674158317578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large model training has been using recomputation to alleviate the memory pressure and pipelining to exploit the parallelism of data, tensor, and devices. The existing recomputation approaches may incur up to 40% overhead when training real-world models, e.g., the GPT model with 22B parameters. This is because they are executed on demand in the critical training path. In this paper, we design a new recomputation framework, Lynx, to reduce the overhead by overlapping the recomputation with communication occurring in training pipelines. It consists of an optimal scheduling algorithm (OPT) and a heuristic-based scheduling algorithm (HEU). OPT achieves a global optimum but suffers from a long search time. HEU was designed based on our observation that there are identical structures in large DNN models so that we can apply the same scheduling policy to all identical structures. HEU achieves a local optimum but reduces the search time by 99% compared to OPT. Our comprehensive evaluation using GPT models with 1.3B-20B parameters shows that both OPT and HEU outperform the state-of-the-art recomputation approaches (e.g., Megatron-LM and Checkmake) by 1.02-1.53x. HEU achieves a similar performance as OPT with a search time of 0.16s on average.
- Abstract(参考訳): 大規模なモデルトレーニングでは、データ、テンソル、デバイスの並列性を活用するために、メモリプレッシャーとパイプライニングを緩和するために再計算を使用してきた。
既存の再計算アプローチでは、22BパラメータのGPTモデルをトレーニングする際に最大40%のオーバーヘッドが発生する可能性がある。
これは、クリティカルトレーニングパスで要求に応じて実行されるためです。
本稿では,新たな再計算フレームワークであるLynxを設計し,トレーニングパイプラインで発生する通信と再計算を重複させることによりオーバヘッドを低減する。
最適スケジューリングアルゴリズム(OPT)とヒューリスティックベースのスケジューリングアルゴリズム(HEU)から構成される。
OPTはグローバルな最適化を実現しているが、長い検索時間に悩まされている。
HEUは、大きなDNNモデルに同じ構造が存在するという観測に基づいて設計されており、同じスケジューリングポリシーを全ての同一構造に適用することができる。
HEUは局所的な最適化を実現するが、OPTと比較して検索時間を99%削減する。
1.3B-20Bパラメータを持つGPTモデルを用いた総合評価の結果、OPTとHEUはどちらも最先端の再計算手法(例えばMegatron-LMとCheckmake)を1.02-1.53xで上回っている。
HEUは平均0.16秒の検索時間でOPTと同等のパフォーマンスを達成している。
関連論文リスト
- Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - DPTDR: Deep Prompt Tuning for Dense Passage Retrieval [53.217524851268216]
ディーププロンプトチューニング(DPT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
しかし、微細チューニング(FT)が依然として支配的な高密度検索においては、十分に解明されていない。
本稿では,DPTに基づく検索手法,すなわち検索指向の中間事前学習と統合負のマイニングの2つのモデル非依存型およびタスク非依存型戦略を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:55:00Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。