論文の概要: ByteCheckpoint: A Unified Checkpointing System for LLM Development
- arxiv url: http://arxiv.org/abs/2407.20143v1
- Date: Mon, 29 Jul 2024 16:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 13:05:24.783145
- Title: ByteCheckpoint: A Unified Checkpointing System for LLM Development
- Title(参考訳): ByteCheckpoint: LLM開発のための統一チェックポイントシステム
- Authors: Borui Wan, Mingji Han, Yiyao Sheng, Zhichao Lai, Mofan Zhang, Junda Zhang, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu,
- Abstract要約: PyTorchネイティブなマルチフレームチェックポイントシステムを導入し、オンラインチェックポイントの自動再シャーディングをサポートする。
ByteCheckpointはデータ/メタデータの分離されたストレージアーキテクチャを採用しており、チェックポイントストレージを採用中の並列処理戦略から切り離している。
我々は,チェックポイントの保存とロードの効率を大幅に向上させるため,いくつかのI/O性能最適化を提案する。
- 参考スコア(独自算出の注目度): 9.657855595257002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of real-world Large Language Models (LLMs) necessitates checkpointing of training states in persistent storage to mitigate potential software and hardware failures, as well as to facilitate checkpoint transferring within the training pipeline and across various tasks. Due to the immense size of LLMs, saving and loading checkpoints often incur intolerable minute-level stalls, significantly diminishing training efficiency. Besides, when transferring checkpoints across tasks, checkpoint resharding, defined as loading checkpoints into parallel configurations differing from those used for saving, is often required according to the characteristics and resource quota of specific tasks. Previous checkpointing systems [16,3,33,6] assume consistent parallel configurations, failing to address the complexities of checkpoint transformation during resharding. Furthermore, in the industry platform, developers create checkpoints from different training frameworks[23,36,21,11], each with its own unique storage and I/O logic. This diversity complicates the implementation of unified checkpoint management and optimization. To address these challenges, we introduce ByteCheckpoint, a PyTorch-native multi-framework LLM checkpointing system that supports automatic online checkpoint resharding. ByteCheckpoint employs a data/metadata disaggregated storage architecture, decoupling checkpoint storage from the adopted parallelism strategies and training frameworks. We design an efficient asynchronous tensor merging technique to settle the irregular tensor sharding problem and propose several I/O performance optimizations to significantly enhance the efficiency of checkpoint saving and loading. Experimental results demonstrate ByteCheckpoint's substantial advantages in reducing checkpoint saving (by up to 529.22X) and loading (by up to 3.51X) costs, compared to baseline methods.
- Abstract(参考訳): LLM(Large Language Models)の開発は、潜在的なソフトウェアやハードウェア障害を軽減し、トレーニングパイプライン内およびさまざまなタスク間でのチェックポイント転送を容易にするために、永続的なストレージにおけるトレーニング状態のチェックポイントを必要とする。
LLMの巨大なサイズのため、チェックポイントの保存とロードは、しばしば耐え難いミニレベルストールを発生させ、トレーニング効率を著しく低下させる。
さらに、タスク間でチェックポイントを転送する際には、特定のタスクの特性やリソースのクォータに応じて、チェックポイントのロードとして定義されたチェックポイントリシャーディングが要求される。
従来のチェックポイントシステム [16,3,33,6] は、一貫した並列構成を前提としており、リシャーディング時のチェックポイント変換の複雑さに対処できない。
さらに、業界プラットフォームでは、開発者は異なるトレーニングフレームワーク[23,36,21,11]からチェックポイントを作成します。
この多様性は、統一されたチェックポイント管理と最適化の実装を複雑にする。
これらの課題に対処するために、PyTorchネイティブなマルチフレームLCMチェックポイントシステムであるByteCheckpointを導入し、オンラインチェックポイントの自動再シャーディングをサポートする。
ByteCheckpointはデータ/メタデータの分離されたストレージアーキテクチャを採用し、チェックポイントストレージを採用中の並列処理戦略とトレーニングフレームワークから分離する。
我々は,不規則なテンソルシャーディング問題を解くために,効率的な非同期テンソルマージ手法を設計し,チェックポイントの節約とロードの効率を大幅に向上させるために,いくつかのI/O性能最適化を提案する。
ByteCheckpointは、チェックポイントの節約(最大529.22X)とロードコスト(最大3.51X)を、ベースライン法と比較して大幅に削減する。
関連論文リスト
- Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training [16.04816181826873]
既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。
本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。
本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-06-27T01:28:30Z) - FastPersist: Accelerating Model Checkpointing in Deep Learning [21.308403847800573]
本稿では,Deep Learning(DL)トレーニングにおけるチェックポイント生成の高速化を目的としたFastPersistを提案する。
FastPersistは、(i)高速なチェックポイント書き込みと推論のための最適化、(ii)トレーニング環境で利用可能な効率的な書き込み並列化、(iii)独立したトレーニング計算と重複するチェックポイント処理の3つの新しいテクニックを組み合わせる。
我々の評価では、FastPersistは、ベースラインよりも最大116倍高速な永続ストレージでチェックポイントを生成し、無視できるオーバーヘッドでイテレーション毎のチェックポイントを可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:31:23Z) - Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging [60.79382212029304]
超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。
本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:24:32Z) - PointFlowHop: Green and Interpretable Scene Flow Estimation from
Consecutive Point Clouds [49.7285297470392]
本研究では,PointFlowHopと呼ばれる3次元シーンフローの効率的な推定法を提案する。
ポイントフローホップは2つの連続する点雲を取り、第1点雲の各点の3次元フローベクトルを決定する。
シーンフロー推定タスクを,エゴモーション補償,オブジェクトアソシエーション,オブジェクトワイドモーション推定など,一連のサブタスクに分解する。
論文 参考訳(メタデータ) (2023-02-27T23:06:01Z) - Asyncval: A Toolkit for Asynchronously Validating Dense Retriever
Checkpoints during Training [26.053028706793587]
ディープラーニングチェックポイントを検証するための簡単な戦略は、トレーニング中に実行するバリデーションループの追加である。
密集型レトリバー(DR)チェックポイントの検証はさほど簡単ではなく、バリデーションループの追加は効率的ではない。
トレーニング中のDRチェックポイントを効率的に検証するPythonベースのツールキットであるAsyncvalを提案する。
論文 参考訳(メタデータ) (2022-02-25T06:07:58Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Ranking Neural Checkpoints [57.27352551718646]
本稿では、下流タスクへの変換学習のための事前訓練されたディープニューラルネットワーク(DNN)のランキングについて検討する。
ニューラルチェックポイントランキングベンチマーク(NeuCRaB)を構築し,直感的なランキング尺度について検討する。
以上の結果から,チェックポイントによって抽出された特徴の線形分離性は,伝達可能性の強い指標であることが示唆された。
論文 参考訳(メタデータ) (2020-11-23T04:05:46Z) - Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文 参考訳(メタデータ) (2020-10-17T00:45:55Z) - On Efficient Constructions of Checkpoints [21.965296582303115]
LC-Checkpoint(LC-Checkpoint)と呼ばれるチェックポイント構築のための損失圧縮手法を提案する。
LC-Checkpointは同時に圧縮速度を最大化し、回復速度を最適化する。
実験の結果,LC-Checkpointは圧縮速度を最大28倍に向上し,回収速度を5.77倍に向上させることができた。
論文 参考訳(メタデータ) (2020-09-28T01:20:15Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Key Points Estimation and Point Instance Segmentation Approach for Lane
Detection [65.37887088194022]
本稿では,PINet (Point Instance Network) と呼ばれるトラヒックライン検出手法を提案する。
PINetには、同時にトレーニングされる複数のスタックされた時間ガラスネットワークが含まれている。
PINetはTuSimpleとCulaneのデータセットで競合精度と偽陽性を達成する。
論文 参考訳(メタデータ) (2020-02-16T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。