論文の概要: Dive into Big Model Training
- arxiv url: http://arxiv.org/abs/2207.11912v1
- Date: Mon, 25 Jul 2022 05:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:52:47.512746
- Title: Dive into Big Model Training
- Title(参考訳): ビッグモデルトレーニングへの取り組み
- Authors: Qinghua Liu, Yuxiang Jiang
- Abstract要約: トレーニングの目的は、Webスケールのデータを活用して、非常に有能で信じられないほど大きなモデルを開発する方法を説明する。
分散トレーニングに基づくトレーニング手法は、大規模なモデルトレーニングを現実にする方法を説明する。
- 参考スコア(独自算出の注目度): 6.809653573125388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing scale of model size and continuous improvement of performance
herald the arrival of the Big Model era. In this report, we explore what and
how the big model training works by diving into training objectives and
training methodologies. Specifically,training objectives describe how to
leverage web-scale data to develop extremely capable and incredibly large
models based on self-supervised learning, and training methodologies which are
based on distributed training describe how to make big model training a
reality. We summarize the existing training methodologies into three main
categories: training parallelism, memory-saving technologies, and model
sparsity design. Training parallelism can be categorized into data, pipeline,
and tensor parallelism according to the dimension of parallelism that takes
place. Memory-saving technologies are orthogonal and complementary to training
parallelism. And model sparsity design further scales up the model size with a
constant computational cost. A continuously updated paper list of big model
training is provided at https://github.com/qhliu26/BM-Training.
- Abstract(参考訳): モデルサイズの増加とパフォーマンスの継続的な改善は、ビッグモデル時代の到来を告げるものだ。
本報告では,訓練対象と訓練方法に潜り込み,ビッグモデルトレーニングがどのように機能するかを考察する。
具体的には、トレーニング対象は、Webスケールのデータを活用して、自己教師付き学習に基づく極めて有能で信じられないほど大きなモデルを開発する方法、そして分散トレーニングに基づくトレーニング方法論は、大規模なトレーニングを現実にする方法を説明する。
既存のトレーニング方法論を,トレーニング並列性,メモリ節約技術,モデルスパーシティ設計の3つのカテゴリにまとめる。
並列性の訓練は、発生する並列性の次元に応じて、データ、パイプライン、テンソル並列性に分類される。
メモリセーブ技術は直交的であり、トレーニング並列処理を補完する。
モデル空間設計は、一定の計算コストでモデルサイズをさらにスケールアップする。
大きなモデルのトレーニングの継続的な更新リストは、https://github.com/qhliu26/bm-trainingで提供されている。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。