Fugu-MT 論文翻訳(概要): Training Large Neural Networks with Constant Memory using a New Execution Algorithm

論文の概要: Training Large Neural Networks with Constant Memory using a New Execution Algorithm

arxiv url: http://arxiv.org/abs/2002.05645v5
Date: Fri, 5 Jun 2020 03:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-01 13:05:09.460613
Title: Training Large Neural Networks with Constant Memory using a New Execution Algorithm
Title（参考訳）: 新しい実行アルゴリズムを用いた定数メモリによる大規模ニューラルネットワークの学習
Authors: Bharadwaj Pudipeddi, Maral Mesmakhosroshahi, Jinwen Xi, and Sujeeth Bharadwaj
Abstract要約: L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。 L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
参考スコア（独自算出の注目度）: 0.5424799109837065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Widely popular transformer-based NLP models such as BERT and Turing-NLG have enormous capacity trending to billions of parameters. Current execution methods demand brute-force resources such as HBM devices and high speed interconnectivity for data parallelism. In this paper, we introduce a new relay-style execution technique called L2L (layer-to-layer) where at any given moment, the device memory is primarily populated only with the executing layer(s)'s footprint. The model resides in the DRAM memory attached to either a CPU or an FPGA as an entity we call eager param-server (EPS). To overcome the bandwidth issues of shuttling parameters to and from EPS, the model is executed a layer at a time across many micro-batches instead of the conventional method of minibatches over whole model. L2L is implemented using 16GB V100 devices for BERT-Large running it with a device batch size of up to 256. Our results show 45% reduction in memory and 40% increase in the throughput compared to the state-of-the-art baseline. L2L is also able to fit models up to 50 Billion parameters on a machine with a single 16GB V100 and 512GB CPU memory and without requiring any model partitioning. L2L scales to arbitrary depth allowing researchers to develop on affordable devices which is a big step toward democratizing AI. By running the optimizer in the host EPS, we show a new form of mixed precision for faster throughput and convergence. In addition, the EPS enables dynamic neural architecture approaches by varying layers across iterations. Finally, we also propose and demonstrate a constant memory variation of L2L and we propose future enhancements. This work has been performed on GPUs first, but also targeted towards all high TFLOPS/Watt accelerators.
Abstract（参考訳）: BERT や Turing-NLG のようなトランスフォーマーベース NLP モデルは数十億のパラメータの傾向にある。現在の実行方法は、HBMデバイスのようなブルートフォースリソースと高速相互接続性を必要とする。本稿では,L2L(Layer-to-layer)と呼ばれる新しいリレー式実行手法を提案する。このモデルは、CPUまたはFPGAにアタッチされたDRAMメモリに存在し、私たちがEPS(equid param-server)と呼ぶエンティティである。パラメータをESSから切り離す際の帯域幅の問題を克服するため、モデル全体に対する従来のミニバッチ方式ではなく、多くのマイクロバッチにまたがる時間にモデルを実行する。 L2Lは、BERT-Large用に16GBのV100デバイスを使用して実装され、デバイスバッチサイズは256までである。その結果,最先端のベースラインに比べて45%のメモリ削減,40%のスループット向上が確認された。 L2Lはまた、16GBのV100と512GBのCPUメモリを1台のマシンに最大500億のパラメータを収めることができ、モデルのパーティショニングは不要である。 L2Lは任意の深さまでスケールし、研究者が手頃な価格のデバイスで開発できるようにする。ホストESSでオプティマイザを動作させることで、スループットと収束を高速化する新しいタイプの混合精度を示す。さらに、EPSはイテレーション間で異なるレイヤによって動的ニューラルネットワークアプローチを可能にする。最後に,L2Lのメモリ変動を一定に抑制し,今後の拡張を提案する。この作業はまずGPU上で実施されているが、すべての高いTFLOPS/Wattアクセラレータをターゲットにしている。

関連論文リスト

ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory [29.245719403159615]
限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
論文参考訳（メタデータ） (2025-03-16T21:58:29Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。提案手法は,与えられた計算予算内で,最先端の推論速度とモデル性能を実現する。
論文参考訳（メタデータ） (2024-11-19T09:24:34Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文参考訳（メタデータ） (2024-02-21T05:03:17Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文参考訳（メタデータ） (2022-03-04T02:10:43Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。