論文の概要: PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel
- arxiv url: http://arxiv.org/abs/2304.11277v2
- Date: Tue, 12 Sep 2023 16:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:21:38.149835
- Title: PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel
- Title(参考訳): PyTorch FSDP: 完全なシャードデータ並列のスケーリングの経験
- Authors: Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang, Min
Xu, Less Wright, Hamid Shojanazeri, Myle Ott, Sam Shleifer, Alban Desmaison,
Can Balioglu, Pritam Damania, Bernard Nguyen, Geeta Chauhan, Yuchen Hao, Ajit
Mathews and Shen Li
- Abstract要約: PyTorch Fully Sharded Data Parallel (FSDP) を大規模モデルトレーニングのための業界グレードのソリューションとして紹介する。
FSDPはTFLOPSの観点で、ほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートする。
- 参考スコア(独自算出の注目度): 19.24542340170026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is widely acknowledged that large models have the potential to deliver
superior performance across a broad range of domains. Despite the remarkable
progress made in the field of machine learning systems research, which has
enabled the development and exploration of large models, such abilities remain
confined to a small group of advanced users and industry leaders, resulting in
an implicit technical barrier for the wider community to access and leverage
these technologies. In this paper, we introduce PyTorch Fully Sharded Data
Parallel (FSDP) as an industry-grade solution for large model training. FSDP
has been closely co-designed with several key PyTorch core components including
Tensor implementation, dispatcher system, and CUDA memory caching allocator, to
provide non-intrusive user experiences and high training efficiency.
Additionally, FSDP natively incorporates a range of techniques and settings to
optimize resource utilization across a variety of hardware configurations. The
experimental results demonstrate that FSDP is capable of achieving comparable
performance to Distributed Data Parallel while providing support for
significantly larger models with near-linear scalability in terms of TFLOPS.
- Abstract(参考訳): 大きなモデルが幅広い領域で優れたパフォーマンスをもたらす可能性があることは広く認識されている。
大規模なモデルの開発と探索を可能にする機械学習システム研究の分野で顕著な進歩にもかかわらず、そのような能力は、少数の先進的なユーザーや業界リーダーのグループに限られており、より広いコミュニティがこれらの技術にアクセスし活用するための暗黙の技術的障壁となっている。
本稿では,大規模モデルトレーニングのための業界レベルのソリューションとして,PyTorch Fully Sharded Data Parallel (FSDP)を紹介する。
FSDPはTensor実装、ディスパッチシステム、CUDAメモリキャッシュアロケータなど、いくつかの主要なPyTorchコアコンポーネントと密に設計されており、非侵襲的なユーザエクスペリエンスと高いトレーニング効率を提供する。
さらにFSDPは、様々なハードウェア構成のリソース利用を最適化するための様々な技術と設定をネイティブに組み込んでいる。
実験結果から,fsdp は分散データ並列処理と同等の性能を達成でき,tflops の観点からは,より大規模でニアリニアなモデルをサポートできることがわかった。
関連論文リスト
- DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE
Pre-Training [90.82825098156299]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。
我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-06T08:38:34Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Pointerformer: Deep Reinforced Multi-Pointer Transformer for the
Traveling Salesman Problem [67.32731657297377]
トラベリングセールスマン問題(TSP)は、もともと輸送と物流の領域で発生した古典的な経路最適化問題である。
近年, 深層強化学習は高い推論効率のため, TSP の解法として採用されている。
本稿では,多点変換器をベースとした新しいエンドツーエンドDRL手法であるPointerformerを提案する。
論文 参考訳(メタデータ) (2023-04-19T03:48:32Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。
我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。
リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文 参考訳(メタデータ) (2022-01-18T11:16:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - Towards a Scalable and Distributed Infrastructure for Deep Learning
Applications [4.4979162962108905]
Phylanxは生産性を重視した実行ツリーを提供する。
分散ディープラーニングフレームワークにおける欠点を軽減する可能性を持つPhylanxを提案する。
論文 参考訳(メタデータ) (2020-10-06T20:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。