Fugu-MT 論文翻訳(概要): Model-Parallel Model Selection for Deep Learning Systems

論文の概要: Model-Parallel Model Selection for Deep Learning Systems

arxiv url: http://arxiv.org/abs/2107.06469v1
Date: Wed, 14 Jul 2021 03:20:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-15 14:08:54.238281
Title: Model-Parallel Model Selection for Deep Learning Systems
Title（参考訳）: ディープラーニングシステムのためのモデル並列モデル選択
Authors: Kabir Nagrecha
Abstract要約: 機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As deep learning becomes more expensive, both in terms of time and compute, inefficiencies in machine learning (ML) training prevent practical usage of state-of-the-art models for most users. The newest model architectures are simply too large to be fit onto a single processor. To address the issue, many ML practitioners have turned to model parallelism as a method of distributing the computational requirements across several devices. Unfortunately, the sequential nature of neural networks causes very low efficiency and device utilization in model parallel training jobs. We propose a new form of "shard parallelism" combining task and model parallelism, then package it into a framework we name Hydra. Hydra recasts the problem of model parallelism in the multi-model context to produce a fine-grained parallel workload of independent model shards, rather than independent models. This new parallel design promises dramatic speedups relative to the traditional model parallelism paradigm.
Abstract（参考訳）: ディープラーニングが時間と計算の両面で高価になるにつれて、マシンラーニング(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を妨げる。最新のモデルアーキテクチャは、単に1つのプロセッサに適合するには大きすぎる。この問題に対処するため、多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。残念なことに、ニューラルネットワークのシーケンシャルな性質は、モデル並列トレーニングジョブにおいて非常に低い効率とデバイス利用を引き起こす。タスクとモデル並列性を組み合わせた新しい形式の"シャード並列性"を提案し,それをhydraと呼ばれるフレームワークにパッケージ化する。 Hydraは、モデル並列性の問題をマルチモデルコンテキストで再放送し、独立モデルではなく独立モデルシャードのきめ細かい並列ワークロードを生成する。この新しい並列設計は、従来のモデル並列化パラダイムと比較して劇的なスピードアップを約束する。

関連論文リスト

MoE Parallel Folding: Heterogeneous Parallelism Mappings for Efficient Large-Scale MoE Model Training with Megatron Core [11.40633051522406]
大規模MOEモデルのエンドツーエンドトレーニングフレームワークを提案する。 MoE Parallel Foldingは、Transformerモデルにおける注目とMoEの並列化を分離する新しい戦略である。フレキシブルなトークンレベルディスパッチはトークンドロップとトークンドロップレスのMoEトレーニングの両方をサポートする。
論文参考訳（メタデータ） (2025-04-21T08:39:47Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文参考訳（メタデータ） (2023-09-03T17:19:11Z)
AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文参考訳（メタデータ） (2023-02-22T21:41:34Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。 SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。 OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文参考訳（メタデータ） (2021-10-28T11:32:14Z)
Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文参考訳（メタデータ） (2021-10-16T18:13:57Z)
Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。 RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。 RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文参考訳（メタデータ） (2021-03-30T04:26:04Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。