論文の概要: Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models
- arxiv url: http://arxiv.org/abs/2010.08679v2
- Date: Tue, 4 May 2021 17:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:14:16.932624
- Title: Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models
- Title(参考訳): Check-N-Run:ディープラーニングレコメンデーションモデルのトレーニングのためのチェックポイントシステム
- Authors: Assaf Eisenman, Kiran Kumar Matam, Steven Ingram, Dheevatsa Mudigere,
Raghuraman Krishnamoorthi, Krishnakumar Nair, Misha Smelyanskiy, Murali
Annavaram
- Abstract要約: 我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
- 参考スコア(独自算出の注目度): 5.604501524927757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checkpoints play an important role in training long running machine learning
(ML) models. Checkpoints take a snapshot of an ML model and store it in a
non-volatile memory so that they can be used to recover from failures to ensure
rapid training progress. In addition, they are used for online training to
improve inference prediction accuracy with continuous learning. Given the large
and ever increasing model sizes, checkpoint frequency is often bottlenecked by
the storage write bandwidth and capacity. When checkpoints are maintained on
remote storage, as is the case with many industrial settings, they are also
bottlenecked by network bandwidth. We present Check-N-Run, a scalable
checkpointing system for training large ML models at Facebook. While
Check-N-Run is applicable to long running ML jobs, we focus on checkpointing
recommendation models which are currently the largest ML models with Terabytes
of model size. Check-N-Run uses two primary techniques to address the size and
bandwidth challenges. First, it applies incremental checkpointing, which tracks
and checkpoints the modified part of the model. Incremental checkpointing is
particularly valuable in the context of recommendation models where only a
fraction of the model (stored as embedding tables) is updated on each
iteration. Second, Check-N-Run leverages quantization techniques to
significantly reduce the checkpoint size, without degrading training accuracy.
These techniques allow Check-N-Run to reduce the required write bandwidth by
6-17x and the required capacity by 2.5-8x on real-world models at Facebook, and
thereby significantly improve checkpoint capabilities while reducing the total
cost of ownership.
- Abstract(参考訳): チェックポイントは、長期実行機械学習(ML)モデルのトレーニングにおいて重要な役割を果たす。
チェックポイントはMLモデルのスナップショットを取得し、不揮発性メモリに格納することで、障害からの回復と迅速なトレーニングの進捗を保証するために使用することができる。
さらに、オンライントレーニングでは、連続学習による推論予測精度を改善するために使用される。
モデルのサイズが大きくなり続けていることから、チェックポイントの頻度はストレージ書き込みの帯域幅とキャパシティによってボトルネックとなることが多い。
リモートストレージ上でチェックポイントが維持される場合、多くの産業的設定と同様に、ネットワーク帯域幅によってボトルネックとなる。
facebookで大規模mlモデルをトレーニングするためのスケーラブルなチェックポイントシステムであるcheck-n-runを提案する。
Check-N-Runは、長時間実行されるMLジョブに適用できるが、我々は、現在、テラバイトのモデルサイズを持つ最大のMLモデルであるチェックポインティングレコメンデーションモデルに焦点を当てている。
Check-N-Runはサイズと帯域幅の問題に対処するために2つの主要なテクニックを使用する。
まず、モデルの修正された部分を追跡し、チェックポイントするインクリメンタルなチェックポイントを適用する。
インクリメンタルチェックポイントは、モデルのごく一部(埋め込みテーブルとして保存されている)がイテレーション毎に更新されるレコメンデーションモデルにおいて特に有用である。
第二に、check-n-runは量子化技術を活用して、トレーニング精度を低下させることなく、チェックポイントサイズを大幅に削減する。
これらの技術により、check-n-runはfacebookの現実世界のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
関連論文リスト
- ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development [9.13331802151585]
ByteCheckpoint は大規模 LFM トレーニングのための産業レベルのチェックポイントシステムである。
ByteCheckpoint はチェックポイントストールを著しく減少させ、平均54.20倍の減少を達成する。
ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
論文 参考訳(メタデータ) (2024-07-29T16:18:20Z) - Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training [16.04816181826873]
既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。
本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。
本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-06-27T01:28:30Z) - ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking [39.02269424136506]
大規模言語モデル(LLM)は最近、人工知能の分野で大きな注目を集めている。
本稿では,エクストリームチェックポイント圧縮(Exreme Checkpoint Compression, ExCP)フレームワークを提案する。
提案した ExCP フレームワークを,410M から 7B のパラメータを含む複数のモデルで広範囲に評価し,高い性能を維持しつつ,ストレージの大幅な削減を実証した。
論文 参考訳(メタデータ) (2024-06-17T06:47:29Z) - RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models [64.49254199311137]
本稿では,事前学習点クラウドモデルのための新しいインスタンス対応動的プロンプトチューニング(IDPT)戦略を提案する。
IDPTの本質は、各ポイントクラウドインスタンスのセマンティックな事前特徴を知覚する動的プロンプト生成モジュールを開発することである。
実験では、IDPTはトレーニング可能なパラメータのわずか7%で、ほとんどのタスクにおいて完全な微調整よりも優れています。
論文 参考訳(メタデータ) (2023-04-14T16:03:09Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Fast Yet Effective Machine Unlearning [6.884272840652062]
本稿では,誤り最大化雑音発生と不適切な反動に基づく重み操作を併用した新しい機械学習フレームワークを提案する。
モデル全体の精度を著しく保ちながら、優れた未学習を示す。
この作業は、ディープネットワークにおけるアンラーニングの迅速かつ簡単な実装に向けた重要なステップである。
論文 参考訳(メタデータ) (2021-11-17T07:29:24Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。