論文の概要: ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development
- arxiv url: http://arxiv.org/abs/2407.20143v2
- Date: Thu, 10 Oct 2024 12:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:16:02.092784
- Title: ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development
- Title(参考訳): ByteCheckpoint: 大規模基盤モデル開発のための統合チェックポイントシステム
- Authors: Borui Wan, Mingji Han, Yiyao Sheng, Yanghua Peng, Haibin Lin, Mofan Zhang, Zhichao Lai, Menghan Yu, Junda Zhang, Zuquan Song, Xin Liu, Chuan Wu,
- Abstract要約: ByteCheckpoint は大規模 LFM トレーニングのための産業レベルのチェックポイントシステムである。
ByteCheckpoint はチェックポイントストールを著しく減少させ、平均54.20倍の減少を達成する。
ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
- 参考スコア(独自算出の注目度): 9.13331802151585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checkpointing to preserve training states is crucial during the development of Large Foundation Models (LFMs), for training resumption upon various failures or changes in GPU resources and parallelism configurations. In addition, saved checkpoints are dispatched to evaluation tasks or transferred across different training stages (e.g., from pre-training to post-training). All these scenarios require resharding distributed checkpoints from one parallelism to another. In production, different LFMs are trained with various frameworks and storage backends, depending on model sizes and training scales. A high-performance checkpointing system is needed to enable efficient checkpoint management at scale. This paper presents ByteCheckpoint, an industrial-grade checkpointing system for large-scale LFM training. ByteCheckpoint employs a parallelism-agnostic checkpoint representation that enables efficient load-time checkpoint resharding. ByteCheckpoint advocates a generic checkpoint saving/loading workflow to accommodate multiple training frameworks and support different storage backends. To ensure high I/O efficiency, we take a full-stack approach to optimize saving/loading plan generation, critical stages of checkpointing pipelines, and irregular tensor processing required by resharding. To guarantee the scalability of ByteCheckpoint in large-scale training, we enhance the storage system to efficiently handle high volumes of checkpointing I/O requests, devise communication optimizations within the checkpointing workflow, and introduce a suite of monitoring tools to analyze performance and detect bottlenecks. Compared to existing open-source checkpointing systems [40, 46], ByteCheckpoint significantly reduces runtime checkpoint stalls, achieving an average reduction of 54.20x. For saving and loading times, ByteCheckpoint achieves improvements of up to 9.96x and 8.80x, respectively.
- Abstract(参考訳): トレーニング状態を保存するためのチェックポイントは、大規模ファンデーションモデル(LFM)の開発において不可欠である。
さらに、保存されたチェックポイントを評価タスクに送信するか、異なるトレーニングステージ(例えば、事前トレーニングから後トレーニングまで)に転送する。
これらのシナリオはすべて、ひとつの並列性から別の並列性への分散チェックポイントのリシャーディングを必要とします。
実運用環境では,さまざまなフレームワークやストレージバックエンドで,モデルサイズやトレーニングスケールに応じて,さまざまな LFM をトレーニングする。
大規模に効率的なチェックポイント管理を実現するためには,高性能なチェックポイントシステムが必要である。
本稿では,大規模LPM訓練のための産業用チェックポイントシステムByteCheckpointを提案する。
ByteCheckpointは並列性に依存しないチェックポイント表現を採用しており、効率的なロード時チェックポイント再シャーディングを可能にする。
ByteCheckpointは、複数のトレーニングフレームワークに対応し、異なるストレージバックエンドをサポートする、一般的なチェックポイントの保存/ロードワークフローを提唱している。
高いI/O効率を確保するため、我々は、貯蓄計画生成、チェックポインティングパイプラインのクリティカルステージ、再シャーディングに必要な不規則なテンソル処理を最適化するためのフルスタックアプローチを採っている。
大規模なトレーニングにおいてByteCheckpointのスケーラビリティを保証するため,大量のI/Oリクエストを効率的に処理するストレージシステムを強化し,チェックポイントワークフロー内で通信最適化を考案し,パフォーマンスを分析しボトルネックを検出するための監視ツールスイートを導入する。
既存のオープンソースのチェックポイントシステム [40, 46] と比較して、ByteCheckpoint は実行時のチェックポイントストールを著しく削減し、平均54.20倍の削減を実現している。
ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
関連論文リスト
- Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training [16.04816181826873]
既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。
本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。
本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-06-27T01:28:30Z) - FastPersist: Accelerating Model Checkpointing in Deep Learning [21.308403847800573]
本稿では,Deep Learning(DL)トレーニングにおけるチェックポイント生成の高速化を目的としたFastPersistを提案する。
FastPersistは、(i)高速なチェックポイント書き込みと推論のための最適化、(ii)トレーニング環境で利用可能な効率的な書き込み並列化、(iii)独立したトレーニング計算と重複するチェックポイント処理の3つの新しいテクニックを組み合わせる。
我々の評価では、FastPersistは、ベースラインよりも最大116倍高速な永続ストレージでチェックポイントを生成し、無視できるオーバーヘッドでイテレーション毎のチェックポイントを可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:31:23Z) - Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging [60.79382212029304]
超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。
本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:24:32Z) - PointFlowHop: Green and Interpretable Scene Flow Estimation from
Consecutive Point Clouds [49.7285297470392]
本研究では,PointFlowHopと呼ばれる3次元シーンフローの効率的な推定法を提案する。
ポイントフローホップは2つの連続する点雲を取り、第1点雲の各点の3次元フローベクトルを決定する。
シーンフロー推定タスクを,エゴモーション補償,オブジェクトアソシエーション,オブジェクトワイドモーション推定など,一連のサブタスクに分解する。
論文 参考訳(メタデータ) (2023-02-27T23:06:01Z) - Asyncval: A Toolkit for Asynchronously Validating Dense Retriever
Checkpoints during Training [26.053028706793587]
ディープラーニングチェックポイントを検証するための簡単な戦略は、トレーニング中に実行するバリデーションループの追加である。
密集型レトリバー(DR)チェックポイントの検証はさほど簡単ではなく、バリデーションループの追加は効率的ではない。
トレーニング中のDRチェックポイントを効率的に検証するPythonベースのツールキットであるAsyncvalを提案する。
論文 参考訳(メタデータ) (2022-02-25T06:07:58Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Ranking Neural Checkpoints [57.27352551718646]
本稿では、下流タスクへの変換学習のための事前訓練されたディープニューラルネットワーク(DNN)のランキングについて検討する。
ニューラルチェックポイントランキングベンチマーク(NeuCRaB)を構築し,直感的なランキング尺度について検討する。
以上の結果から,チェックポイントによって抽出された特徴の線形分離性は,伝達可能性の強い指標であることが示唆された。
論文 参考訳(メタデータ) (2020-11-23T04:05:46Z) - Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文 参考訳(メタデータ) (2020-10-17T00:45:55Z) - On Efficient Constructions of Checkpoints [21.965296582303115]
LC-Checkpoint(LC-Checkpoint)と呼ばれるチェックポイント構築のための損失圧縮手法を提案する。
LC-Checkpointは同時に圧縮速度を最大化し、回復速度を最適化する。
実験の結果,LC-Checkpointは圧縮速度を最大28倍に向上し,回収速度を5.77倍に向上させることができた。
論文 参考訳(メタデータ) (2020-09-28T01:20:15Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Key Points Estimation and Point Instance Segmentation Approach for Lane
Detection [65.37887088194022]
本稿では,PINet (Point Instance Network) と呼ばれるトラヒックライン検出手法を提案する。
PINetには、同時にトレーニングされる複数のスタックされた時間ガラスネットワークが含まれている。
PINetはTuSimpleとCulaneのデータセットで競合精度と偽陽性を達成する。
論文 参考訳(メタデータ) (2020-02-16T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。