論文の概要: Training Large Neural Networks with Constant Memory using a New
Execution Algorithm
- arxiv url: http://arxiv.org/abs/2002.05645v5
- Date: Fri, 5 Jun 2020 03:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:05:09.460613
- Title: Training Large Neural Networks with Constant Memory using a New
Execution Algorithm
- Title(参考訳): 新しい実行アルゴリズムを用いた定数メモリによる大規模ニューラルネットワークの学習
- Authors: Bharadwaj Pudipeddi, Maral Mesmakhosroshahi, Jinwen Xi, and Sujeeth
Bharadwaj
- Abstract要約: L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
- 参考スコア(独自算出の注目度): 0.5424799109837065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Widely popular transformer-based NLP models such as BERT and Turing-NLG have
enormous capacity trending to billions of parameters. Current execution methods
demand brute-force resources such as HBM devices and high speed
interconnectivity for data parallelism. In this paper, we introduce a new
relay-style execution technique called L2L (layer-to-layer) where at any given
moment, the device memory is primarily populated only with the executing
layer(s)'s footprint. The model resides in the DRAM memory attached to either a
CPU or an FPGA as an entity we call eager param-server (EPS). To overcome the
bandwidth issues of shuttling parameters to and from EPS, the model is executed
a layer at a time across many micro-batches instead of the conventional method
of minibatches over whole model. L2L is implemented using 16GB V100 devices for
BERT-Large running it with a device batch size of up to 256. Our results show
45% reduction in memory and 40% increase in the throughput compared to the
state-of-the-art baseline. L2L is also able to fit models up to 50 Billion
parameters on a machine with a single 16GB V100 and 512GB CPU memory and
without requiring any model partitioning. L2L scales to arbitrary depth
allowing researchers to develop on affordable devices which is a big step
toward democratizing AI. By running the optimizer in the host EPS, we show a
new form of mixed precision for faster throughput and convergence. In addition,
the EPS enables dynamic neural architecture approaches by varying layers across
iterations. Finally, we also propose and demonstrate a constant memory
variation of L2L and we propose future enhancements. This work has been
performed on GPUs first, but also targeted towards all high TFLOPS/Watt
accelerators.
- Abstract(参考訳): BERT や Turing-NLG のようなトランスフォーマーベース NLP モデルは数十億のパラメータの傾向にある。
現在の実行方法は、HBMデバイスのようなブルートフォースリソースと高速相互接続性を必要とする。
本稿では,L2L(Layer-to-layer)と呼ばれる新しいリレー式実行手法を提案する。
このモデルは、CPUまたはFPGAにアタッチされたDRAMメモリに存在し、私たちがEPS(equid param-server)と呼ぶエンティティである。
パラメータをESSから切り離す際の帯域幅の問題を克服するため、モデル全体に対する従来のミニバッチ方式ではなく、多くのマイクロバッチにまたがる時間にモデルを実行する。
L2Lは、BERT-Large用に16GBのV100デバイスを使用して実装され、デバイスバッチサイズは256までである。
その結果,最先端のベースラインに比べて45%のメモリ削減,40%のスループット向上が確認された。
L2Lはまた、16GBのV100と512GBのCPUメモリを1台のマシンに最大500億のパラメータを収めることができ、モデルのパーティショニングは不要である。
L2Lは任意の深さまでスケールし、研究者が手頃な価格のデバイスで開発できるようにする。
ホストESSでオプティマイザを動作させることで、スループットと収束を高速化する新しいタイプの混合精度を示す。
さらに、EPSはイテレーション間で異なるレイヤによって動的ニューラルネットワークアプローチを可能にする。
最後に,L2Lのメモリ変動を一定に抑制し,今後の拡張を提案する。
この作業はまずGPU上で実施されているが、すべての高いTFLOPS/Wattアクセラレータをターゲットにしている。
関連論文リスト
- Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。
提案手法は,与えられた計算予算内で,最先端の推論速度とモデル性能を実現する。
論文 参考訳(メタデータ) (2024-11-19T09:24:34Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。