論文の概要: Oobleck: Resilient Distributed Training of Large Models Using Pipeline
Templates
- arxiv url: http://arxiv.org/abs/2309.08125v1
- Date: Fri, 15 Sep 2023 03:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:13:04.734446
- Title: Oobleck: Resilient Distributed Training of Large Models Using Pipeline
Templates
- Title(参考訳): Oobleck: パイプラインテンプレートを使用した大規模モデルのレジリエントな分散トレーニング
- Authors: Insu Jang, Zhenning Yang, Zhen Zhang, Xin Jin, Mosharaf Chowdhury
- Abstract要約: Oobleckは,フォールトトレランスを保証した大規模DNNモデルのレジリエントな分散トレーニングを可能にする。
プランニング・エグゼクティブの共同設計アプローチを採用し、まずは不均一なパイプラインテンプレートを生成する。
Oobleckは、初期生成されたパイプラインテンプレートの組み合わせによって、$f$以下の同時障害後に利用可能なすべてのリソースをカバーできることを確実に保証している。
- 参考スコア(独自算出の注目度): 11.913989926748803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oobleck enables resilient distributed training of large DNN models with
guaranteed fault tolerance. It takes a planning-execution co-design approach,
where it first generates a set of heterogeneous pipeline templates and
instantiates at least $f+1$ logically equivalent pipeline replicas to tolerate
any $f$ simultaneous failures. During execution, it relies on
already-replicated model states across the replicas to provide fast recovery.
Oobleck provably guarantees that some combination of the initially created
pipeline templates can be used to cover all available resources after $f$ or
fewer simultaneous failures, thereby avoiding resource idling at all times.
Evaluation on large DNN models with billions of parameters shows that Oobleck
provides consistently high throughput, and it outperforms state-of-the-art
fault tolerance solutions like Bamboo and Varuna by up to $13.9x$.
- Abstract(参考訳): Oobleckは,フォールトトレランスを保証した大規模DNNモデルのレジリエントな分散トレーニングを可能にする。
プランニング・エグゼクティブの共同設計アプローチを採用し、まず不均一なパイプラインテンプレートのセットを生成し、少なくとも$f+1$論理的に等価なパイプラインレプリカをインスタンス化し、$f$同時障害を許容する。
実行中は、高速なリカバリを実現するために、レプリカ全体で既にレプリケーション済みのモデルステートに依存する。
Oobleckは、初期生成されたパイプラインテンプレートの組み合わせによって、$f$以下の同時障害後に利用可能なすべてのリソースをカバーできることを確実に保証している。
数十億のパラメータを持つ大規模なDNNモデルを評価すると、Oobleckは一貫して高いスループットを提供し、BambooやVarunaのような最先端のフォールトトレランスソリューションを最大13.9x$で上回っている。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - Successfully Applying Lottery Ticket Hypothesis to Diffusion Model [15.910383121581065]
Lottery Ticket仮説は、独立してトレーニングされた場合、元の高密度ニューラルネットワークと競合するパフォーマンスを達成するための勝利チケットが存在すると主張している。
ベンチマーク上で拡散確率モデルをデノベートするための性能を損なうことなく、スパーシティの90%~99%でワークスを実証的に発見する。
本手法では,ストレージの少ないスペーサーサブモデルを見つけることができ,FLOPの数を削減できる。
論文 参考訳(メタデータ) (2023-10-28T21:09:50Z) - SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading
Acceleration [16.846777341261436]
畳み込みニューラルネットワーク(CNN)の空間性の研究は、限られた資源を持つ環境下でモデルを圧縮・加速するために広範に行われている。
最近の研究は、密集した事前訓練された重量に基づいて1$times$Nスパースウェイトを選択し、微調整する必要がある。
本稿では,新しいEmphtextbfSoft textbfUniform textbfBlock textbfPruning (SUBP)アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-10T00:22:27Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。