論文の概要: Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models
- arxiv url: http://arxiv.org/abs/2010.08679v2
- Date: Tue, 4 May 2021 17:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:14:16.932624
- Title: Check-N-Run: A Checkpointing System for Training Deep Learning
Recommendation Models
- Title(参考訳): Check-N-Run:ディープラーニングレコメンデーションモデルのトレーニングのためのチェックポイントシステム
- Authors: Assaf Eisenman, Kiran Kumar Matam, Steven Ingram, Dheevatsa Mudigere,
Raghuraman Krishnamoorthi, Krishnakumar Nair, Misha Smelyanskiy, Murali
Annavaram
- Abstract要約: 我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。
Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。
これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
- 参考スコア(独自算出の注目度): 5.604501524927757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checkpoints play an important role in training long running machine learning
(ML) models. Checkpoints take a snapshot of an ML model and store it in a
non-volatile memory so that they can be used to recover from failures to ensure
rapid training progress. In addition, they are used for online training to
improve inference prediction accuracy with continuous learning. Given the large
and ever increasing model sizes, checkpoint frequency is often bottlenecked by
the storage write bandwidth and capacity. When checkpoints are maintained on
remote storage, as is the case with many industrial settings, they are also
bottlenecked by network bandwidth. We present Check-N-Run, a scalable
checkpointing system for training large ML models at Facebook. While
Check-N-Run is applicable to long running ML jobs, we focus on checkpointing
recommendation models which are currently the largest ML models with Terabytes
of model size. Check-N-Run uses two primary techniques to address the size and
bandwidth challenges. First, it applies incremental checkpointing, which tracks
and checkpoints the modified part of the model. Incremental checkpointing is
particularly valuable in the context of recommendation models where only a
fraction of the model (stored as embedding tables) is updated on each
iteration. Second, Check-N-Run leverages quantization techniques to
significantly reduce the checkpoint size, without degrading training accuracy.
These techniques allow Check-N-Run to reduce the required write bandwidth by
6-17x and the required capacity by 2.5-8x on real-world models at Facebook, and
thereby significantly improve checkpoint capabilities while reducing the total
cost of ownership.
- Abstract(参考訳): チェックポイントは、長期実行機械学習(ML)モデルのトレーニングにおいて重要な役割を果たす。
チェックポイントはMLモデルのスナップショットを取得し、不揮発性メモリに格納することで、障害からの回復と迅速なトレーニングの進捗を保証するために使用することができる。
さらに、オンライントレーニングでは、連続学習による推論予測精度を改善するために使用される。
モデルのサイズが大きくなり続けていることから、チェックポイントの頻度はストレージ書き込みの帯域幅とキャパシティによってボトルネックとなることが多い。
リモートストレージ上でチェックポイントが維持される場合、多くの産業的設定と同様に、ネットワーク帯域幅によってボトルネックとなる。
facebookで大規模mlモデルをトレーニングするためのスケーラブルなチェックポイントシステムであるcheck-n-runを提案する。
Check-N-Runは、長時間実行されるMLジョブに適用できるが、我々は、現在、テラバイトのモデルサイズを持つ最大のMLモデルであるチェックポインティングレコメンデーションモデルに焦点を当てている。
Check-N-Runはサイズと帯域幅の問題に対処するために2つの主要なテクニックを使用する。
まず、モデルの修正された部分を追跡し、チェックポイントするインクリメンタルなチェックポイントを適用する。
インクリメンタルチェックポイントは、モデルのごく一部(埋め込みテーブルとして保存されている)がイテレーション毎に更新されるレコメンデーションモデルにおいて特に有用である。
第二に、check-n-runは量子化技術を活用して、トレーニング精度を低下させることなく、チェックポイントサイズを大幅に削減する。
これらの技術により、check-n-runはfacebookの現実世界のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models [64.49254199311137]
本稿では,事前学習点クラウドモデルのための新しいインスタンス対応動的プロンプトチューニング(IDPT)戦略を提案する。
IDPTの本質は、各ポイントクラウドインスタンスのセマンティックな事前特徴を知覚する動的プロンプト生成モジュールを開発することである。
実験では、IDPTはトレーニング可能なパラメータのわずか7%で、ほとんどのタスクにおいて完全な微調整よりも優れています。
論文 参考訳(メタデータ) (2023-04-14T16:03:09Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Fast Yet Effective Machine Unlearning [6.884272840652062]
本稿では,誤り最大化雑音発生と不適切な反動に基づく重み操作を併用した新しい機械学習フレームワークを提案する。
モデル全体の精度を著しく保ちながら、優れた未学習を示す。
この作業は、ディープネットワークにおけるアンラーニングの迅速かつ簡単な実装に向けた重要なステップである。
論文 参考訳(メタデータ) (2021-11-17T07:29:24Z) - Micro Batch Streaming: Allowing the Training of DNN models Using a large
batch size on Small Memory Systems [0.0]
ディープラーニングモデルは、モデルと大きなデータサイズの両方に対応する十分なメモリを持っていないため、大規模なバッチサイズを使用してトレーニングするのは難しい。
バッチサイズが小さくなると、通常パフォーマンスが低下する。
本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案し,この問題に対処する。
論文 参考訳(メタデータ) (2021-10-24T16:38:05Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。