論文の概要: Training Large Language Models Efficiently with Sparsity and Dataflow
- arxiv url: http://arxiv.org/abs/2304.05511v1
- Date: Tue, 11 Apr 2023 21:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:47:11.008600
- Title: Training Large Language Models Efficiently with Sparsity and Dataflow
- Title(参考訳): スパーシリティとデータフローによる大規模言語モデルの訓練
- Authors: Venkat Srinivasan, Darshan Gandhi, Urmish Thakker and Raghu Prabhakar
- Abstract要約: 本稿では,大言語モデル(130億GPT)における疎度とデータフローを用いたエンドツーエンドのトレーニングフローを示す。
我々は,GPT 13Bを高密度のGPT 13Bモデルと同じ品質でトレーニングできる一方で,高密度のA100ベースライン上でのエンドツーエンドの高速化を4.5倍に達成できることを示す。
- 参考スコア(独自算出の注目度): 3.1780195670658378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation language models have shown their versatility in being able
to be adapted to perform a wide variety of downstream tasks, such as text
generation, sentiment analysis, semantic search etc. However, training such
large foundational models is a non-trivial exercise that requires a significant
amount of compute power and expertise from machine learning and systems
experts. As models get larger, these demands are only increasing. Sparsity is a
promising technique to relieve the compute requirements for training. However,
sparsity introduces new challenges in training the sparse model to the same
quality as the dense counterparts. Furthermore, sparsity drops the operation
intensity and introduces irregular memory access patterns that makes it
challenging to efficiently utilize compute resources. This paper demonstrates
an end-to-end training flow on a large language model - 13 billion GPT - using
sparsity and dataflow. The dataflow execution model and architecture enables
efficient on-chip irregular memory accesses as well as native kernel fusion and
pipelined parallelism that helps recover device utilization. We show that we
can successfully train GPT 13B to the same quality as the dense GPT 13B model,
while achieving an end-end speedup of 4.5x over dense A100 baseline.
- Abstract(参考訳): 大規模な基礎言語モデルでは,テキスト生成や感情分析,意味検索など,さまざまな下流タスクに適応可能な汎用性が示されている。
しかし、そのような大規模な基礎モデルのトレーニングは、膨大な量の計算能力と専門知識を機械学習やシステム専門家から要求する非自明な演習である。
モデルが大きくなるにつれ、これらの需要は増大している。
Sparsityは、トレーニングの計算要求を緩和する有望なテクニックである。
しかし、スパースモデルは密度の高いモデルと同じ品質でスパースモデルをトレーニングする際の新たな課題をもたらす。
さらに、sparsityは操作強度を下げ、不規則なメモリアクセスパターンを導入し、計算リソースを効率的に利用することが困難になる。
本稿では,sparsity と dataflow を用いた大規模言語モデル - 13億 gpt - 上でのエンドツーエンドのトレーニングフローを示す。
データフロー実行モデルとアーキテクチャは、デバイス利用の回復に役立つ、効率的なオンチップ不規則メモリアクセスとネイティブカーネル融合とパイプライン並列化を可能にする。
我々は,gpt 13bモデルと同じ品質でgpt 13bをトレーニングし,a100ベースラインの4.5倍のエンドエンドスピードアップを達成できることを示した。
関連論文リスト
- Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Efficient Parallelization Layouts for Large-Scale Distributed Model Training [17.16249954009967]
本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。
マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。
最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
論文 参考訳(メタデータ) (2023-11-09T18:59:38Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Dive into Big Model Training [6.809653573125388]
トレーニングの目的は、Webスケールのデータを活用して、非常に有能で信じられないほど大きなモデルを開発する方法を説明する。
分散トレーニングに基づくトレーニング手法は、大規模なモデルトレーニングを現実にする方法を説明する。
論文 参考訳(メタデータ) (2022-07-25T05:38:39Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and
Few-Shot Learning [18.932100477957462]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。
本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T07:40:22Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。