論文の概要: Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training
- arxiv url: http://arxiv.org/abs/2406.18820v2
- Date: Fri, 28 Jun 2024 02:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:50:27.718585
- Title: Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training
- Title(参考訳): Universal Checkpointing: 大規模分散トレーニングのための効率的かつ柔軟なチェックポイント
- Authors: Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang,
- Abstract要約: 既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。
本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。
本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 16.04816181826873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing checkpointing approaches seem ill-suited for distributed training even though hardware limitations make model parallelism, i.e., sharding model state across multiple accelerators, a requirement for model scaling. Consolidating distributed model state into a single checkpoint unacceptably slows down training, and is impractical at extreme scales. Distributed checkpoints, in contrast, are tightly coupled to the model parallelism and hardware configurations of the training run, and thus unusable on different configurations. To address this problem, we propose Universal Checkpointing, a technique that enables efficient checkpoint creation while providing the flexibility of resuming on arbitrary parallelism strategy and hardware configurations. Universal Checkpointing unlocks unprecedented capabilities for large-scale training such as improved resilience to hardware failures through continued training on remaining healthy hardware, and reduced training time through opportunistic exploitation of elastic capacity. The key insight of Universal Checkpointing is the selection of the optimal representation in each phase of the checkpointing life cycle: distributed representation for saving, and consolidated representation for loading. This is achieved using two key mechanisms. First, the universal checkpoint format, which consists of a consolidated representation of each model parameter and metadata for mapping parameter fragments into training ranks of arbitrary model-parallelism configuration. Second, the universal checkpoint language, a simple but powerful specification language for converting distributed checkpoints into the universal checkpoint format. Our evaluation demonstrates the effectiveness and generality of Universal Checkpointing on state-of-the-art model architectures and a wide range of parallelism techniques.
- Abstract(参考訳): 既存のチェックポイントアプローチは、ハードウェアの制限によってモデルの並列性、すなわちモデルのスケーリングの要件である複数のアクセラレーター間でモデルの状態をシャーディングするにもかかわらず、分散トレーニングには適していないように思われる。
分散モデル状態の単一チェックポイントへの統合は、トレーニングを許容不可能に遅くし、極端なスケールでは実用的ではない。
対照的に、分散チェックポイントはトレーニングランのモデル並列性とハードウェア構成と密接に結びついているので、異なる構成では使用できない。
この問題に対処するために,任意の並列性戦略とハードウェア構成に基づいて再見積を行う柔軟性を提供しながら,効率的なチェックポイント作成を可能にする手法であるユニバーサルチェックポイントを提案する。
Universal Checkpointingは、健全なハードウェアの継続的なトレーニングを通じてハードウェア障害に対するレジリエンスを改善し、弾力性の活用を通じてトレーニング時間を短縮するなど、大規模なトレーニングのための前例のない能力をアンロックする。
Universal Checkpointingの重要な洞察は、チェックポイントライフサイクルの各フェーズにおける最適な表現の選択である。
これは2つの重要なメカニズムによって達成される。
まず、各モデルパラメータの統一表現とパラメータフラグメントのメタデータを任意のモデル並列構成のトレーニングランクにマッピングするユニバーサルチェックポイント形式について述べる。
第2に、ユニバーサルチェックポイント言語は、分散チェックポイントをユニバーサルチェックポイント形式に変換するための、シンプルだが強力な仕様言語である。
本評価は,最先端のモデルアーキテクチャと多種多様な並列処理技術におけるユニバーサルチェックポイントの有効性と汎用性を示す。
関連論文リスト
- Self-Supervised Any-Point Tracking by Contrastive Random Walks [17.50529887238381]
我々はグローバルマッチング変換器を訓練し、コントラッシブなランダムウォークを通してビデオを通してサイクル整合性のあるトラックを見つける。
提案手法はTapVidベンチマークで高い性能を達成し,従来の自己教師付きトラッキング手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - MoC-System: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training [4.4345088842995395]
本研究では,分散学習システムで発生する多数のチェックポイントシャードをオーケストレーションするMixture-of-Checkpoint System (MoC-System)を提案する。
MoC-Systemは、新しい部分エキスパートチェックポイント(PEC)機構を備えており、これはアルゴリズムシステムの共同設計であり、専門家の選ばれたサブセットを戦略的に保存する。
We build MoC-System on the Megatron-DeepSpeed framework, achieve a 98.9% down of overhead for each checkpointing process。
論文 参考訳(メタデータ) (2024-08-08T08:40:15Z) - ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development [9.13331802151585]
ByteCheckpoint は大規模 LFM トレーニングのための産業レベルのチェックポイントシステムである。
ByteCheckpoint はチェックポイントストールを著しく減少させ、平均54.20倍の減少を達成する。
ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
論文 参考訳(メタデータ) (2024-07-29T16:18:20Z) - Submodel Partitioning in Hierarchical Federated Learning: Algorithm
Design and Convergence Analysis [15.311309249848739]
階層学習(FL)は、従来の「星のトポロジー」アーキテクチャに基づく連合学習(FL)よりも有望なスケーラビリティを実証している。
本稿では,IoT(Internet of Things)の独立したサブトレーニングを提案する。
HISTの背景にある主要なアイデアは、モデル計算のグローバルバージョンであり、グローバルモデルを各ラウンドの非結合サブモデルに分割し、異なるセルに分散する。
論文 参考訳(メタデータ) (2023-10-27T04:42:59Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging [60.79382212029304]
超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。
本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:24:32Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文 参考訳(メタデータ) (2020-10-17T00:45:55Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。