論文の概要: Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences
- arxiv url: http://arxiv.org/abs/2412.07894v1
- Date: Tue, 10 Dec 2024 20:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:04.103722
- Title: Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences
- Title(参考訳): 可変長列を用いた大規模変圧器モデルの訓練における負荷不均衡の軽減
- Authors: Haoyang Li, Fangcheng Fu, Sheng Lin, Hao Ge, Xuanyu Wang, Jiawen Niu, Jie Jiang, Bin Cui,
- Abstract要約: 我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。
実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
- 参考スコア(独自算出の注目度): 31.232756326457277
- License:
- Abstract: To optimize large Transformer model training, efficient parallel computing and advanced data management are essential. However, current methods often assume a stable and uniform training workload, neglecting imbalances in data sampling and packing that can impede performance. Specifically, data sampling imbalance arises from uneven sequence length distribution of the training data, while data packing imbalance stems from the discrepancy between the linear memory complexity and quadratic time complexity of the attention mechanism. To address these imbalance issues, we develop Hydraulis, which jointly optimizes the parallel strategies and data assignment. For one thing, we introduce large model training with dynamic heterogeneous parallel strategies in response to the sequence length variations within and across training iterations. For another, we devise a two-stage data assignment approach, which strikes a good balance in terms of the training workloads both within and across model replicas. Empirical results demonstrate that Hydraulis outperforms existing systems by 1.32-2.66 times.
- Abstract(参考訳): 大規模なTransformerモデルのトレーニングを最適化するためには、効率的な並列コンピューティングと高度なデータ管理が不可欠である。
しかし、現在の手法では、安定的で均一なトレーニングの負荷を前提としており、データサンプリングやパッキングの不均衡を無視し、パフォーマンスを損なうことがある。
具体的には、データのサンプリング不均衡はトレーニングデータの不均一なシーケンス長分布から生じるが、データパッキング不均衡は、線形記憶の複雑さと注意機構の二次時間複雑さとの相違から生じる。
これらの不均衡問題に対処するため,並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発した。
ひとつは、トレーニングイテレーション間のシーケンス長の変化に応じて、動的ヘテロジニアス並列戦略を用いた大規模なモデルトレーニングを導入することである。
もうひとつは、2段階のデータ割り当てアプローチを考案し、モデルレプリカ内とモデル間でのトレーニングワークロードのバランスを良好にします。
実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Data splitting improves statistical performance in overparametrized
regimes [0.0]
分散学習は、複数のコンピューティングデバイスを活用することで、全体的なトレーニング時間を短縮する一般的な戦略である。
この状態において、データの分割は正規化効果があり、統計性能と計算複雑性が向上することを示す。
論文 参考訳(メタデータ) (2021-10-21T08:10:56Z) - An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。
クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文 参考訳(メタデータ) (2021-04-22T01:34:29Z) - Training Transformers for Information Security Tasks: A Case Study on
Malicious URL Prediction [3.660098145214466]
私たちは、スクラッチからトレーニングされたトランスフォーマーアーキテクチャに基づいて、悪意のある/良性のある予測URLを実装します。
従来の自然言語処理(NLP)変換器とは対照的に,このモデルは動作に異なるトレーニングアプローチを必要とする。
論文 参考訳(メタデータ) (2020-11-05T18:58:51Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。