Fugu-MT 論文翻訳(概要): Efficient Parallelization Layouts for Large-Scale Distributed Model Training

論文の概要: Efficient Parallelization Layouts for Large-Scale Distributed Model Training

arxiv url: http://arxiv.org/abs/2311.05610v2
Date: Sun, 10 Dec 2023 14:56:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 01:28:35.753482
Title: Efficient Parallelization Layouts for Large-Scale Distributed Model Training
Title（参考訳）: 大規模分散モデルトレーニングのための効率的な並列化レイアウト
Authors: Johannes Hagemann, Samuel Weinbach, Konstantin Dobler, Maximilian Schall, Gerard de Melo
Abstract要約: 本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
参考スコア（独自算出の注目度）: 18.41271819407099
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficiently training large language models requires parallelizing across hundreds of hardware accelerators and invoking various compute and memory optimizations. When combined, many of these strategies have complex interactions regarding the final training efficiency. Prior work tackling this problem did not have access to the latest set of optimizations, such as FlashAttention or sequence parallelism. In this work, we conduct a comprehensive ablation study of possible training configurations for large language models. We distill this large study into several key recommendations for the most efficient training. For instance, we find that using a micro-batch size of 1 usually enables the most efficient training layouts. Larger micro-batch sizes necessitate activation checkpointing or higher degrees of model parallelism and also lead to larger pipeline bubbles. Our most efficient configurations enable us to achieve state-of-the-art training efficiency results over a range of model sizes, most notably a Model FLOPs utilization of 70.5% when training a Llama 13B model.
Abstract（参考訳）: 大きな言語モデルを効果的に訓練するには、数百のハードウェアアクセラレーターを並列化し、様々な計算とメモリの最適化を実行する必要がある。組み合わせると、これらの戦略の多くは最終訓練効率に関する複雑な相互作用を持つ。この問題に取り組む以前の作業では、フラッシュアテンションやシーケンス並列処理など、最新の最適化セットにアクセスできなかった。本研究では,大規模言語モデルのトレーニング構成に関する包括的アブレーション研究を行う。この大規模な研究を、最も効率的なトレーニングのためのいくつかの重要な推奨事項にまとめます。例えば、マイクロバッチサイズ1を使用することで、最も効率的なトレーニングレイアウトが可能になります。より大きなマイクロバッチサイズは、アクティベーションチェックポイントやモデル並列性の高次化を必要とし、さらに大きなパイプラインバブルにつながる。最も効率的な構成は、Llama 13Bモデルをトレーニングする際のモデルFLOPs利用率70.5%など、様々なモデルサイズで最先端のトレーニング効率を達成できます。

関連論文リスト

AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism [17.006352664497122]
PyTorch Fully Shard Data Parallel を用いた実用的な実装を開発した。提案手法が一定のバッチサイズより優れていることを示す。また、このような適応型バッチサイズスケジュールについても理論的に保証する。
論文参考訳（メタデータ） (2024-12-30T17:55:28Z)
Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training [29.44470664154098]
ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効果的なスケーリングに重要であることを示す。我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
論文参考訳（メタデータ） (2024-11-20T06:05:11Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Training Large Language Models Efficiently with Sparsity and Dataflow [3.1780195670658378]
本稿では,大言語モデル(130億GPT)における疎度とデータフローを用いたエンドツーエンドのトレーニングフローを示す。我々は,GPT 13Bを高密度のGPT 13Bモデルと同じ品質でトレーニングできる一方で,高密度のA100ベースライン上でのエンドツーエンドの高速化を4.5倍に達成できることを示す。
論文参考訳（メタデータ） (2023-04-11T21:37:13Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文参考訳（メタデータ） (2022-05-20T09:09:27Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。