論文の概要: Systems for Parallel and Distributed Large-Model Deep Learning Training
- arxiv url: http://arxiv.org/abs/2301.02691v1
- Date: Fri, 6 Jan 2023 19:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:21:05.757579
- Title: Systems for Parallel and Distributed Large-Model Deep Learning Training
- Title(参考訳): 並列分散型大規模ディープラーニング学習システム
- Authors: Kabir Nagrecha
- Abstract要約: 最近のTransformerモデルは、数十億の学習可能なパラメータにまたがっている。
これらの設計はDL空間に新たなスケール駆動システム課題をもたらした。
この調査では、大規模なモデルトレーニングシステムの展望を探求し、主要な課題とそれに対応する様々なテクニックを強調します。
- 参考スコア(独自算出の注目度): 7.106986689736828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) has transformed applications in a variety of domains,
including computer vision, natural language processing, and tabular data
analysis. The search for improved DL model accuracy has led practitioners to
explore increasingly large neural architectures, with some recent Transformer
models spanning hundreds of billions of learnable parameters. These designs
have introduced new scale-driven systems challenges for the DL space, such as
memory bottlenecks, poor runtime efficiency, and high costs of model
development. Efforts to address these issues have explored techniques such as
parallelization of neural architectures, spilling data across the memory
hierarchy, and memory-efficient data representations. This survey will explore
the large-model training systems landscape, highlighting key challenges and the
various techniques that have been used to address them.
- Abstract(参考訳): ディープラーニング(DL)は、コンピュータビジョン、自然言語処理、表形式のデータ分析など、さまざまな分野のアプリケーションを変換している。
dlモデルの精度向上の追求は、数十億の学習可能なパラメータにまたがる最近のトランスフォーマーモデルによって、ますます大きなニューラルネットワークアーキテクチャを探求するようになった。
これらの設計は、メモリボトルネック、ランタイム効率の低下、モデル開発における高コストなど、DL空間に新たなスケール駆動システム課題を導入している。
これらの問題に対処する努力は、ニューラルアーキテクチャの並列化、メモリ階層にまたがるデータの流出、メモリ効率のよいデータ表現といったテクニックを探求してきた。
この調査では、大規模なモデルトレーニングシステムの展望を探求し、主要な課題とそれに対応する様々なテクニックを強調します。
関連論文リスト
- A Survey of Distributed Learning in Cloud, Mobile, and Edge Settings [1.0589208420411014]
この調査では、クラウドとエッジ設定を含む分散学習の状況について調査する。
データとモデルの並列性という中核的な概念を掘り下げて、モデルをさまざまな次元と層に分割して、リソースの利用とパフォーマンスを最適化する方法を調べます。
計算効率,通信オーバヘッド,メモリ制約のトレードオフを浮き彫りにして,完全接続層,畳み込み層,繰り返し層など,さまざまなレイヤタイプに対するパーティショニング方式を解析する。
論文 参考訳(メタデータ) (2024-05-23T22:00:38Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Neural Architecture Search for Dense Prediction Tasks in Computer Vision [74.9839082859151]
ディープラーニングは、ニューラルネットワークアーキテクチャエンジニアリングに対する需要の高まりにつながっている。
ニューラルネットワーク検索(NAS)は、手動ではなく、データ駆動方式でニューラルネットワークアーキテクチャを自動設計することを目的としている。
NASはコンピュータビジョンの幅広い問題に適用されている。
論文 参考訳(メタデータ) (2022-02-15T08:06:50Z) - A Survey of Large-Scale Deep Learning Serving System Optimization:
Challenges and Opportunities [24.38071862662089]
サーベイは、大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し、分類することを目的としている。
ディープラーニング(DL)モデルは、ビジョン、言語、医療、商業広告、エンターテイメントなど、多くのアプリケーション領域で優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-11-28T22:14:10Z) - Constructing Neural Network-Based Models for Simulating Dynamical
Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。
本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。
基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文 参考訳(メタデータ) (2021-11-02T10:51:42Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。