論文の概要: Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2310.05350v2
- Date: Wed, 11 Oct 2023 01:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:25:48.456860
- Title: Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training
- Title(参考訳): 大規模言語モデル事前学習のための効率的なパラメータ探索と並列化のためのスケーリング研究
- Authors: Michael Benington, Leo Phan, Chris Pierre Paul, Evan Shoemaker,
Priyanka Ranade, Torstein Collett, Grant Hodgson Perez, Christopher Krieger
- Abstract要約: 並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
- 参考スコア(独自算出の注目度): 2.875838666718042
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI accelerator processing capabilities and memory constraints largely dictate
the scale in which machine learning workloads (e.g., training and inference)
can be executed within a desirable time frame. Training a state of the art,
transformer-based model today requires use of GPU-accelerated high performance
computers with high-speed interconnects. As datasets and models continue to
increase in size, computational requirements and memory demands for AI also
continue to grow. These challenges have inspired the development of distributed
algorithm and circuit-based optimization techniques that enable the ability to
progressively scale models in multi-node environments, efficiently minimize
neural network cost functions for faster convergence, and store more parameters
into a set number of available resources. In our research project, we focus on
parallel and distributed machine learning algorithm development, specifically
for optimizing the data processing and pre-training of a set of 5
encoder-decoder LLMs, ranging from 580 million parameters to 13 billion
parameters. We performed a fine-grained study to quantify the relationships
between three ML parallelism methods, specifically exploring Microsoft
DeepSpeed Zero Redundancy Optimizer (ZeRO) stages.
- Abstract(参考訳): aiアクセラレータの処理能力とメモリの制約は、マシンラーニングのワークロード(トレーニングや推論など)が望ましい時間枠内で実行可能なスケールに大きく影響します。
最先端のトランスフォーマーベースのモデルをトレーニングするには、gpuによる高速インターコネクトを備えた高性能コンピュータを使用する必要がある。
データセットとモデルのサイズが拡大するにつれて、AIの計算要求とメモリ要求も増加し続ける。
これらの課題は、分散アルゴリズムと回路ベースの最適化技術の開発に影響を与え、マルチノード環境で段階的にモデルをスケールし、ニューラルネットワークのコスト関数を効率的に最小化し、より高速な収束を実現し、より多くのパラメータを利用可能なリソースに格納することができる。
本研究では,5億8000万個のパラメータから13億個のパラメータを含む5個のエンコーダデコーダLLMのデータの処理と事前学習を最適化するための並列および分散機械学習アルゴリズムの開発に焦点を当てた。
我々は,3つのML並列化手法の関係を定量化するための詳細な研究を行い,特にMicrosoft DeepSpeed Zero Redundancy Optimizer (ZeRO) の段階について検討した。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - R^3: On-device Real-Time Deep Reinforcement Learning for Autonomous
Robotics [9.2327813168753]
本稿では、デバイス上でのリアルタイムDRLトレーニングにおけるタイミング、メモリ、アルゴリズム性能を管理するための総合的なソリューションR3を提案する。
R3は、(i)動的バッチサイズを最適化するためのデッドライン駆動フィードバックループ、(ii)メモリフットプリントを削減し、より大きなリプレイバッファサイズを実現するための効率的なメモリ管理、(iii)ランタイム分析によってガイドされるランタイムコーディネータ、およびメモリリソース予約を調整するランタイムプロファイラを採用している。
論文 参考訳(メタデータ) (2023-08-29T05:48:28Z) - Symbolic Regression on FPGAs for Fast Machine Learning Inference [2.0920303420933273]
高エネルギー物理コミュニティは、FPGA(Field-Programmable Gate Arrays)上に機械学習ベースのソリューションをデプロイする可能性を探っている
シンボリックレグレッション(SR)と呼ばれる機械学習技術を利用した新しいエンドツーエンドプロシージャを提案する。
提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。
論文 参考訳(メタデータ) (2023-05-06T17:04:02Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Hyperparameter optimization of data-driven AI models on HPC systems [0.0]
この作業は、AIとHPCのクロスメソッドを活用するデータ駆動型ユースケースに関するRAISEの取り組みの一環だ。
高エネルギー物理におけるマシンラーニング粒子再構成の場合,ASHAアルゴリズムとベイジアン最適化を組み合わせることで,解析されたアルゴリズムから得られた計算資源あたりの性能が最大になることがわかった。
論文 参考訳(メタデータ) (2022-03-02T14:02:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Distributed Training and Optimization Of Neural Networks [0.0]
ディープラーニングモデルは、複数の要因のおかげで、ますますパフォーマンスが向上しています。
成功させるために、モデルは多数のパラメータや複雑なアーキテクチャを持ち、大きなデータセットでトレーニングされる。
これにより、コンピューティングリソースに対する大きな要求が生まれ、時間を振り返ることになります。
論文 参考訳(メタデータ) (2020-12-03T11:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。