論文の概要: GShard: Scaling Giant Models with Conditional Computation and Automatic
Sharding
- arxiv url: http://arxiv.org/abs/2006.16668v1
- Date: Tue, 30 Jun 2020 10:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:17:27.563612
- Title: GShard: Scaling Giant Models with Conditional Computation and Automatic
Sharding
- Title(参考訳): GShard: 条件計算と自動シャーディングによる巨大モデルのスケーリング
- Authors: Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan
Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, Zhifeng Chen
- Abstract要約: 自動シャーディングを用いて,Sparsely-Gated Mixture-of-Expertsを用いた多言語ニューラルネットワーク翻訳トランスフォーマーモデルのスケールアップ方法を示す。
我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,はるかに優れた品質を実現することを実証した。
- 参考スコア(独自算出の注目度): 46.74457030177477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network scaling has been critical for improving the model quality in
many real-world machine learning applications with vast amounts of training
data and compute. Although this trend of scaling is affirmed to be a sure-fire
approach for better model quality, there are challenges on the path such as the
computation cost, ease of programming, and efficient implementation on parallel
devices. GShard is a module composed of a set of lightweight annotation APIs
and an extension to the XLA compiler. It provides an elegant way to express a
wide range of parallel computation patterns with minimal changes to the
existing model code. GShard enabled us to scale up multilingual neural machine
translation Transformer model with Sparsely-Gated Mixture-of-Experts beyond 600
billion parameters using automatic sharding. We demonstrate that such a giant
model can efficiently be trained on 2048 TPU v3 accelerators in 4 days to
achieve far superior quality for translation from 100 languages to English
compared to the prior art.
- Abstract(参考訳): ニューラルネットワークのスケーリングは、膨大なトレーニングデータと計算量を持つ多くの実世界の機械学習アプリケーションにおいて、モデル品質の改善に不可欠である。
このスケーリングの傾向は、モデル品質を改善するための確実なアプローチであると確認されているが、計算コスト、プログラミングの容易さ、並列デバイスへの効率的な実装といったパスには課題がある。
GShardは軽量なアノテーションAPIとXLAコンパイラの拡張で構成されるモジュールである。
既存のモデルコードへの最小限の変更で、幅広い並列計算パターンを表現するエレガントな方法を提供する。
Sparsely-Gated Mixture-of-Expertsを600億以上のパラメータで自動シャーディングすることで、多言語ニューラルネットワーク翻訳変換モデルのスケールアップを可能にしました。
我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,従来の技術に比べてはるかに優れた品質が得られることを示した。
関連論文リスト
- Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - DiPaCo: Distributed Path Composition [31.686642863608558]
本稿では,機械学習モデルのためのモジュールアーキテクチャとトレーニングアプローチを提案する。
トレーニング中、DiPaCoは共有モジュールのセットを通じてパスで配布する。
推論時には、モデル圧縮を必要とせずに、各入力に対して1つのパスだけを実行する必要がある。
論文 参考訳(メタデータ) (2024-03-15T18:26:51Z) - Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。