論文の概要: Scalable Training of Language Models using JAX pjit and TPUv4
- arxiv url: http://arxiv.org/abs/2204.06514v1
- Date: Wed, 13 Apr 2022 17:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:22:33.176978
- Title: Scalable Training of Language Models using JAX pjit and TPUv4
- Title(参考訳): JAX pjit と TPUv4 を用いた言語モデルのスケーラブルなトレーニング
- Authors: Joanna Yoo, Kuba Perlin, Siddhartha Rao Kamalakara, Jo\~ao G.M.
Ara\'ujo
- Abstract要約: 現代の大規模言語モデルは、そのサイズのために分散トレーニング戦略を必要とする。
それらを効率的かつ堅牢にトレーニングするという課題は、ソフトウェアとハードウェアのフロンティアの両方で急速に進展している。
- 参考スコア(独自算出の注目度): 3.441021278275805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models require distributed training strategies due to
their size. The challenges of efficiently and robustly training them are met
with rapid developments on both software and hardware frontiers. In this
technical report, we explore challenges and design decisions associated with
developing a scalable training framework, and present a quantitative analysis
of efficiency improvements coming from adopting new software and hardware
solutions.
- Abstract(参考訳): 現代の大規模言語モデルは、そのサイズのために分散トレーニング戦略を必要とする。
効率的かつ堅牢なトレーニングの課題は、ソフトウェアとハードウェアのフロンティアの両方で急速に進展している。
本稿では,スケーラブルなトレーニングフレームワークの開発に伴う課題と設計上の決定について検討し,新しいソフトウェアおよびハードウェアソリューションの採用による効率改善の定量的分析を行う。
関連論文リスト
- Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。