論文の概要: Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training
- arxiv url: http://arxiv.org/abs/2406.18820v2
- Date: Fri, 28 Jun 2024 02:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:50:27.718585
- Title: Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training
- Title(参考訳): Universal Checkpointing: 大規模分散トレーニングのための効率的かつ柔軟なチェックポイント
- Authors: Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang,
- Abstract要約: 既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。
本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。
本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 16.04816181826873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing checkpointing approaches seem ill-suited for distributed training even though hardware limitations make model parallelism, i.e., sharding model state across multiple accelerators, a requirement for model scaling. Consolidating distributed model state into a single checkpoint unacceptably slows down training, and is impractical at extreme scales. Distributed checkpoints, in contrast, are tightly coupled to the model parallelism and hardware configurations of the training run, and thus unusable on different configurations. To address this problem, we propose Universal Checkpointing, a technique that enables efficient checkpoint creation while providing the flexibility of resuming on arbitrary parallelism strategy and hardware configurations. Universal Checkpointing unlocks unprecedented capabilities for large-scale training such as improved resilience to hardware failures through continued training on remaining healthy hardware, and reduced training time through opportunistic exploitation of elastic capacity. The key insight of Universal Checkpointing is the selection of the optimal representation in each phase of the checkpointing life cycle: distributed representation for saving, and consolidated representation for loading. This is achieved using two key mechanisms. First, the universal checkpoint format, which consists of a consolidated representation of each model parameter and metadata for mapping parameter fragments into training ranks of arbitrary model-parallelism configuration. Second, the universal checkpoint language, a simple but powerful specification language for converting distributed checkpoints into the universal checkpoint format. Our evaluation demonstrates the effectiveness and generality of Universal Checkpointing on state-of-the-art model architectures and a wide range of parallelism techniques.
- Abstract(参考訳): 既存のチェックポイントアプローチは、ハードウェアの制限によってモデルの並列性、すなわちモデルのスケーリングの要件である複数のアクセラレーター間でモデルの状態をシャーディングするにもかかわらず、分散トレーニングには適していないように思われる。
分散モデル状態の単一チェックポイントへの統合は、トレーニングを許容不可能に遅くし、極端なスケールでは実用的ではない。
対照的に、分散チェックポイントはトレーニングランのモデル並列性とハードウェア構成と密接に結びついているので、異なる構成では使用できない。
この問題に対処するために,任意の並列性戦略とハードウェア構成に基づいて再見積を行う柔軟性を提供しながら,効率的なチェックポイント作成を可能にする手法であるユニバーサルチェックポイントを提案する。
Universal Checkpointingは、健全なハードウェアの継続的なトレーニングを通じてハードウェア障害に対するレジリエンスを改善し、弾力性の活用を通じてトレーニング時間を短縮するなど、大規模なトレーニングのための前例のない能力をアンロックする。
Universal Checkpointingの重要な洞察は、チェックポイントライフサイクルの各フェーズにおける最適な表現の選択である。
これは2つの重要なメカニズムによって達成される。
まず、各モデルパラメータの統一表現とパラメータフラグメントのメタデータを任意のモデル並列構成のトレーニングランクにマッピングするユニバーサルチェックポイント形式について述べる。
第2に、ユニバーサルチェックポイント言語は、分散チェックポイントをユニバーサルチェックポイント形式に変換するための、シンプルだが強力な仕様言語である。
本評価は,最先端のモデルアーキテクチャと多種多様な並列処理技術におけるユニバーサルチェックポイントの有効性と汎用性を示す。
関連論文リスト
- ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Submodel Partitioning in Hierarchical Federated Learning: Algorithm
Design and Convergence Analysis [15.311309249848739]
階層学習(FL)は、従来の「星のトポロジー」アーキテクチャに基づく連合学習(FL)よりも有望なスケーラビリティを実証している。
本稿では,IoT(Internet of Things)の独立したサブトレーニングを提案する。
HISTの背景にある主要なアイデアは、モデル計算のグローバルバージョンであり、グローバルモデルを各ラウンドの非結合サブモデルに分割し、異なるセルに分散する。
論文 参考訳(メタデータ) (2023-10-27T04:42:59Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging [60.79382212029304]
超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。
本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:24:32Z) - SplitGP: Achieving Both Generalization and Personalization in Federated
Learning [31.105681433459285]
SplitGPは、リソース制約のあるクライアント間の効率的な推論のために、一般化とパーソナライズ機能をキャプチャする。
我々はSplitGPの収束挙動を解析的に解析し、全てのクライアントモデルが定常点に接近していることを明らかにする。
実験結果から, SplitGPは, 種々の分布外サンプルに対して, 推定時間, 試験精度において, 既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-12-16T08:37:24Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z) - Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文 参考訳(メタデータ) (2020-10-17T00:45:55Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。