Fugu-MT 論文翻訳(概要): Systems for Parallel and Distributed Large-Model Deep Learning Training

論文の概要: Systems for Parallel and Distributed Large-Model Deep Learning Training

arxiv url: http://arxiv.org/abs/2301.02691v1
Date: Fri, 6 Jan 2023 19:17:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 18:21:05.757579
Title: Systems for Parallel and Distributed Large-Model Deep Learning Training
Title（参考訳）: 並列分散型大規模ディープラーニング学習システム
Authors: Kabir Nagrecha
Abstract要約: 最近のTransformerモデルは、数十億の学習可能なパラメータにまたがっている。これらの設計はDL空間に新たなスケール駆動システム課題をもたらした。この調査では、大規模なモデルトレーニングシステムの展望を探求し、主要な課題とそれに対応する様々なテクニックを強調します。
参考スコア（独自算出の注目度）: 7.106986689736828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) has transformed applications in a variety of domains, including computer vision, natural language processing, and tabular data analysis. The search for improved DL model accuracy has led practitioners to explore increasingly large neural architectures, with some recent Transformer models spanning hundreds of billions of learnable parameters. These designs have introduced new scale-driven systems challenges for the DL space, such as memory bottlenecks, poor runtime efficiency, and high costs of model development. Efforts to address these issues have explored techniques such as parallelization of neural architectures, spilling data across the memory hierarchy, and memory-efficient data representations. This survey will explore the large-model training systems landscape, highlighting key challenges and the various techniques that have been used to address them.
Abstract（参考訳）: ディープラーニング(DL)は、コンピュータビジョン、自然言語処理、表形式のデータ分析など、さまざまな分野のアプリケーションを変換している。 dlモデルの精度向上の追求は、数十億の学習可能なパラメータにまたがる最近のトランスフォーマーモデルによって、ますます大きなニューラルネットワークアーキテクチャを探求するようになった。これらの設計は、メモリボトルネック、ランタイム効率の低下、モデル開発における高コストなど、DL空間に新たなスケール駆動システム課題を導入している。これらの問題に対処する努力は、ニューラルアーキテクチャの並列化、メモリ階層にまたがるデータの流出、メモリ効率のよいデータ表現といったテクニックを探求してきた。この調査では、大規模なモデルトレーニングシステムの展望を探求し、主要な課題とそれに対応する様々なテクニックを強調します。

関連論文リスト

Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Manifold meta-learning for reduced-complexity neural system identification [1.0276024900942875]
低次元多様体を発見するメタラーニングフレームワークを提案する。この多様体は、関連する力学系のクラスによって生成される入力出力シーケンスのメタデータセットから学習される。両レベルメタラーニングアプローチとは異なり,本手法では,学習多様体に直接データセットをマッピングする補助的ニューラルネットワークを用いる。
論文参考訳（メタデータ） (2025-04-16T06:49:56Z)
A Survey of Distributed Learning in Cloud, Mobile, and Edge Settings [1.0589208420411014]
この調査では、クラウドとエッジ設定を含む分散学習の状況について調査する。データとモデルの並列性という中核的な概念を掘り下げて、モデルをさまざまな次元と層に分割して、リソースの利用とパフォーマンスを最適化する方法を調べます。計算効率,通信オーバヘッド,メモリ制約のトレードオフを浮き彫りにして,完全接続層,畳み込み層,繰り返し層など,さまざまなレイヤタイプに対するパーティショニング方式を解析する。
論文参考訳（メタデータ） (2024-05-23T22:00:38Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-28T12:02:27Z)
Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文参考訳（メタデータ） (2023-04-27T21:08:05Z)
Neural Architecture Search for Dense Prediction Tasks in Computer Vision [74.9839082859151]
ディープラーニングは、ニューラルネットワークアーキテクチャエンジニアリングに対する需要の高まりにつながっている。ニューラルネットワーク検索(NAS)は、手動ではなく、データ駆動方式でニューラルネットワークアーキテクチャを自動設計することを目的としている。 NASはコンピュータビジョンの幅広い問題に適用されている。
論文参考訳（メタデータ） (2022-02-15T08:06:50Z)
A Survey of Large-Scale Deep Learning Serving System Optimization: Challenges and Opportunities [24.38071862662089]
サーベイは、大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し、分類することを目的としている。ディープラーニング(DL)モデルは、ビジョン、言語、医療、商業広告、エンターテイメントなど、多くのアプリケーション領域で優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2021-11-28T22:14:10Z)
Constructing Neural Network-Based Models for Simulating Dynamical Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文参考訳（メタデータ） (2021-11-02T10:51:42Z)
Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文参考訳（メタデータ） (2020-12-15T16:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。