論文の概要: ByteCheckpoint: A Unified Checkpointing System for LLM Development
- arxiv url: http://arxiv.org/abs/2407.20143v1
- Date: Mon, 29 Jul 2024 16:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 13:05:24.783145
- Title: ByteCheckpoint: A Unified Checkpointing System for LLM Development
- Title(参考訳): ByteCheckpoint: LLM開発のための統一チェックポイントシステム
- Authors: Borui Wan, Mingji Han, Yiyao Sheng, Zhichao Lai, Mofan Zhang, Junda Zhang, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu,
- Abstract要約: PyTorchネイティブなマルチフレームチェックポイントシステムを導入し、オンラインチェックポイントの自動再シャーディングをサポートする。
ByteCheckpointはデータ/メタデータの分離されたストレージアーキテクチャを採用しており、チェックポイントストレージを採用中の並列処理戦略から切り離している。
我々は,チェックポイントの保存とロードの効率を大幅に向上させるため,いくつかのI/O性能最適化を提案する。
- 参考スコア(独自算出の注目度): 9.657855595257002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of real-world Large Language Models (LLMs) necessitates checkpointing of training states in persistent storage to mitigate potential software and hardware failures, as well as to facilitate checkpoint transferring within the training pipeline and across various tasks. Due to the immense size of LLMs, saving and loading checkpoints often incur intolerable minute-level stalls, significantly diminishing training efficiency. Besides, when transferring checkpoints across tasks, checkpoint resharding, defined as loading checkpoints into parallel configurations differing from those used for saving, is often required according to the characteristics and resource quota of specific tasks. Previous checkpointing systems [16,3,33,6] assume consistent parallel configurations, failing to address the complexities of checkpoint transformation during resharding. Furthermore, in the industry platform, developers create checkpoints from different training frameworks[23,36,21,11], each with its own unique storage and I/O logic. This diversity complicates the implementation of unified checkpoint management and optimization. To address these challenges, we introduce ByteCheckpoint, a PyTorch-native multi-framework LLM checkpointing system that supports automatic online checkpoint resharding. ByteCheckpoint employs a data/metadata disaggregated storage architecture, decoupling checkpoint storage from the adopted parallelism strategies and training frameworks. We design an efficient asynchronous tensor merging technique to settle the irregular tensor sharding problem and propose several I/O performance optimizations to significantly enhance the efficiency of checkpoint saving and loading. Experimental results demonstrate ByteCheckpoint's substantial advantages in reducing checkpoint saving (by up to 529.22X) and loading (by up to 3.51X) costs, compared to baseline methods.
- Abstract(参考訳): LLM(Large Language Models)の開発は、潜在的なソフトウェアやハードウェア障害を軽減し、トレーニングパイプライン内およびさまざまなタスク間でのチェックポイント転送を容易にするために、永続的なストレージにおけるトレーニング状態のチェックポイントを必要とする。
LLMの巨大なサイズのため、チェックポイントの保存とロードは、しばしば耐え難いミニレベルストールを発生させ、トレーニング効率を著しく低下させる。
さらに、タスク間でチェックポイントを転送する際には、特定のタスクの特性やリソースのクォータに応じて、チェックポイントのロードとして定義されたチェックポイントリシャーディングが要求される。
従来のチェックポイントシステム [16,3,33,6] は、一貫した並列構成を前提としており、リシャーディング時のチェックポイント変換の複雑さに対処できない。
さらに、業界プラットフォームでは、開発者は異なるトレーニングフレームワーク[23,36,21,11]からチェックポイントを作成します。
この多様性は、統一されたチェックポイント管理と最適化の実装を複雑にする。
これらの課題に対処するために、PyTorchネイティブなマルチフレームLCMチェックポイントシステムであるByteCheckpointを導入し、オンラインチェックポイントの自動再シャーディングをサポートする。
ByteCheckpointはデータ/メタデータの分離されたストレージアーキテクチャを採用し、チェックポイントストレージを採用中の並列処理戦略とトレーニングフレームワークから分離する。
我々は,不規則なテンソルシャーディング問題を解くために,効率的な非同期テンソルマージ手法を設計し,チェックポイントの節約とロードの効率を大幅に向上させるために,いくつかのI/O性能最適化を提案する。
ByteCheckpointは、チェックポイントの節約(最大529.22X)とロードコスト(最大3.51X)を、ベースライン法と比較して大幅に削減する。
関連論文リスト
- Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training [16.04816181826873]
既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。
本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。
本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-06-27T01:28:30Z) - FastPersist: Accelerating Model Checkpointing in Deep Learning [21.308403847800573]
本稿では,Deep Learning(DL)トレーニングにおけるチェックポイント生成の高速化を目的としたFastPersistを提案する。
FastPersistは、(i)高速なチェックポイント書き込みと推論のための最適化、(ii)トレーニング環境で利用可能な効率的な書き込み並列化、(iii)独立したトレーニング計算と重複するチェックポイント処理の3つの新しいテクニックを組み合わせる。
我々の評価では、FastPersistは、ベースラインよりも最大116倍高速な永続ストレージでチェックポイントを生成し、無視できるオーバーヘッドでイテレーション毎のチェックポイントを可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:31:23Z) - ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking [39.02269424136506]
大規模言語モデル(LLM)は最近、人工知能の分野で大きな注目を集めている。
本稿では,エクストリームチェックポイント圧縮(Exreme Checkpoint Compression, ExCP)フレームワークを提案する。
提案した ExCP フレームワークを,410M から 7B のパラメータを含む複数のモデルで広範囲に評価し,高い性能を維持しつつ,ストレージの大幅な削減を実証した。
論文 参考訳(メタデータ) (2024-06-17T06:47:29Z) - ServerlessLLM: Low-Latency Serverless Inference for Large Language Models [14.754839787728912]
ServerlessLLMは、大規模言語モデル(LLM)のための低レイテンシなサーバレス推論をサポートするように設計された分散システムである。
推論サーバのGPUに近いストレージとメモリ容量を活用することで、ServerlessLLMは効果的なローカルチェックポイントストレージを実現する。
マイクロベンチマークや実世界のシナリオを含む包括的な評価は、ServerlessLLMが最先端のサーバレスシステムを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-01-25T17:55:07Z) - FreePoint: Unsupervised Point Cloud Instance Segmentation [72.64540130803687]
点クラウド上の教師なしクラス非依存のインスタンスセグメンテーションを探索するためのFreePointを提案する。
我々は、座標、色、そして自己監督の深い特徴を組み合わせることで、点の特徴を表現する。
ポイント機能に基づいて、ポイントクラウドを擬似ラベルとして粗いインスタンスマスクに分割し、ポイントクラウドインスタンスセグメンテーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-05-11T16:56:26Z) - Geometric Transformer for Fast and Robust Point Cloud Registration [53.10568889775553]
点雲登録のための正確な対応を抽出する問題について検討する。
最近のキーポイントフリー手法は、低オーバーラップシナリオでは難しい繰り返し可能なキーポイントの検出を回避している。
本稿では,ロバストなスーパーポイントマッチングのための幾何学的特徴を学習するための幾何学変換器を提案する。
論文 参考訳(メタデータ) (2022-02-14T13:26:09Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Ranking Neural Checkpoints [57.27352551718646]
本稿では、下流タスクへの変換学習のための事前訓練されたディープニューラルネットワーク(DNN)のランキングについて検討する。
ニューラルチェックポイントランキングベンチマーク(NeuCRaB)を構築し,直感的なランキング尺度について検討する。
以上の結果から,チェックポイントによって抽出された特徴の線形分離性は,伝達可能性の強い指標であることが示唆された。
論文 参考訳(メタデータ) (2020-11-23T04:05:46Z) - Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文 参考訳(メタデータ) (2020-10-17T00:45:55Z) - RPM-Net: Robust Point Matching using Learned Features [79.52112840465558]
RPM-Netは、より敏感で、より堅牢なディープラーニングベースのアプローチである。
既存の方法とは異なり、我々のRPM-Netは、部分的な可視性を備えた対応や点雲の欠如を処理します。
論文 参考訳(メタデータ) (2020-03-30T13:45:27Z) - Key Points Estimation and Point Instance Segmentation Approach for Lane
Detection [65.37887088194022]
本稿では,PINet (Point Instance Network) と呼ばれるトラヒックライン検出手法を提案する。
PINetには、同時にトレーニングされる複数のスタックされた時間ガラスネットワークが含まれている。
PINetはTuSimpleとCulaneのデータセットで競合精度と偽陽性を達成する。
論文 参考訳(メタデータ) (2020-02-16T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。