論文の概要: FastPersist: Accelerating Model Checkpointing in Deep Learning
- arxiv url: http://arxiv.org/abs/2406.13768v1
- Date: Wed, 19 Jun 2024 18:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:35:22.114460
- Title: FastPersist: Accelerating Model Checkpointing in Deep Learning
- Title(参考訳): FastPersist: ディープラーニングにおけるモデルチェックポイントの高速化
- Authors: Guanhua Wang, Olatunji Ruwase, Bing Xie, Yuxiong He,
- Abstract要約: 本稿では,Deep Learning(DL)トレーニングにおけるチェックポイント生成の高速化を目的としたFastPersistを提案する。
FastPersistは、(i)高速なチェックポイント書き込みと推論のための最適化、(ii)トレーニング環境で利用可能な効率的な書き込み並列化、(iii)独立したトレーニング計算と重複するチェックポイント処理の3つの新しいテクニックを組み合わせる。
我々の評価では、FastPersistは、ベースラインよりも最大116倍高速な永続ストレージでチェックポイントを生成し、無視できるオーバーヘッドでイテレーション毎のチェックポイントを可能にする。
- 参考スコア(独自算出の注目度): 21.308403847800573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model checkpoints are critical Deep Learning (DL) artifacts that enable fault tolerance for training and downstream applications, such as inference. However, writing checkpoints to persistent storage, and other I/O aspects of DL training, are mostly ignored by compute-focused optimization efforts for faster training of rapidly growing models and datasets. Towards addressing this imbalance, we propose FastPersist to accelerate checkpoint creation in DL training. FastPersist combines three novel techniques: (i) NVMe optimizations for faster checkpoint writes to SSDs, (ii) efficient write parallelism using the available SSDs in training environments, and (iii) overlapping checkpointing with independent training computations. Our evaluation using real world dense and sparse DL models shows that FastPersist creates checkpoints in persistent storage up to 116x faster than baseline, and enables per-iteration checkpointing with negligible overhead.
- Abstract(参考訳): モデルチェックポイントは、トレーニングや、推論などの下流アプリケーションに対するフォールトトレランスを可能にする、重要なディープラーニング(DL)アーティファクトである。
しかし、永続的なストレージへのチェックポイントの書き込みや他のDLトレーニングのI/O面は、急速に成長するモデルやデータセットのトレーニングを高速化するための計算中心の最適化によって無視される。
この不均衡に対処するために,本研究では,DLトレーニングにおけるチェックポイント生成を高速化するFastPersistを提案する。
FastPersistは3つの新しいテクニックを組み合わせています。
(i)SSDへの高速なチェックポイント書き込みのためのNVMe最適化
二 トレーニング環境における利用可能なSSDを用いた効率的な書き込み並列化
三 個別の訓練計算によるチェックポイントの重複
実世界の高密度かつスパースなDLモデルを用いて評価したところ、FastPersistは、ベースラインよりも最大116倍高速な永続ストレージでチェックポイントを生成し、無視できないオーバーヘッドでイテレーションごとのチェックポイントを可能にする。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。
その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文 参考訳(メタデータ) (2024-06-15T18:30:40Z) - Token-wise Influential Training Data Retrieval for Large Language Models [8.42342318438945]
RapidInは、トレーニングデータの影響を推定するために、大規模言語モデルに適応するフレームワークである。
RapidInはキャッシュされた勾配を効率よく横切り、数分で影響を推定し、6,326倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-05-20T01:57:34Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Optimizing Memory-Access Patterns for Deep Learning Accelerators [6.931196464448543]
ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータへと移行している。
現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積操作を扱うのに長けている。
データをソフトウェア管理のスクラッチパッドメモリで適切に実行する必要があるため、アクセルの計算能力を完全に活用することは困難である。
本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T05:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。