論文の概要: ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding
- arxiv url: http://arxiv.org/abs/2104.01981v1
- Date: Mon, 5 Apr 2021 16:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:16:59.103407
- Title: ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding
- Title(参考訳): ecrm: 消去コーディングによるレコメンデーションモデルトレーニングのための効率的なフォールトトレランス
- Authors: Kaige Liu, Jack Kosaian, K. V. Rashmi
- Abstract要約: ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。
チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
- 参考スコア(独自算出の注目度): 1.418033127602866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-learning-based recommendation models (DLRMs) are widely deployed to
serve personalized content to users. DLRMs are large in size due to their use
of large embedding tables, and are trained by distributing the model across the
memory of tens or hundreds of servers. Server failures are common in such large
distributed systems and must be mitigated to enable training to progress.
Checkpointing is the primary approach used for fault tolerance in these
systems, but incurs significant training-time overhead both during normal
operation and when recovering from failures. As these overheads increase with
DLRM size, checkpointing is slated to become an even larger overhead for future
DLRMs, which are expected to grow in size. This calls for rethinking fault
tolerance in DLRM training.
We present ECRM, a DLRM training system that achieves efficient fault
tolerance using erasure coding. ECRM chooses which DLRM parameters to encode,
correctly and efficiently updates parities, and enables training to proceed
without any pauses, while maintaining consistency of the recovered parameters.
We implement ECRM atop XDL, an open-source, industrial-scale DLRM training
system. Compared to checkpointing, ECRM reduces training-time overhead for
large DLRMs by up to 88%, recovers from failures up to 10.3$\times$ faster, and
allows training to proceed during recovery. These results show the promise of
erasure coding in imparting efficient fault tolerance to training current and
future DLRMs.
- Abstract(参考訳): ディープラーニングベースのレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きくなり、モデルを数十から数百のサーバのメモリに分散させることで訓練される。
このような大規模な分散システムでは、サーバ障害が一般的であり、トレーニングを前進させるためには、緩和される必要がある。
チェックポインティングは、これらのシステムにおける耐障害性の主要なアプローチであるが、通常の操作時と障害からの回復時の両方で、トレーニング時間にかなりのオーバーヘッドが発生する。
これらのオーバーヘッドがDLRMサイズとともに増加するにつれて、チェックポイントは、サイズが大きくなると予想される将来のDLRMにとって、さらに大きなオーバーヘッドになる。
これはDLRMトレーニングにおけるフォールトトレランスの再考を要求する。
本稿では,消去符号を用いた効率的な耐故障性を実現するDLRMトレーニングシステムであるECRMを提案する。
ECRMは、どのDLRMパラメータをエンコードするかを選択し、パリティを正しく効率的に更新し、回復したパラメータの一貫性を維持しながら、停止せずにトレーニングを進めることができる。
我々は,オープンソースの産業規模のDLRMトレーニングシステムであるXDL上にECRMを実装した。
チェックポイントと比較して、ECRMは大規模なDLRMのトレーニング時間オーバーヘッドを最大88%削減し、障害から最大10.3$\times$高速に回復し、リカバリ中にトレーニングを進めることができる。
これらの結果は,現在および将来のdlrmに効率的なフォールトトレランスを与える上で,コーディングの消去が期待できることを示す。
関連論文リスト
- DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、既存のドメイン一般化(DG)手法よりも優れていることを示す。
ERMは、学習率、ウェイト崩壊、バッチサイズ、ドロップアウトなどのハイパーパラメータのみをチューニングしながら、そのような強力な結果を得た。
結果、より強力なベースライン ERM++ を呼び出します。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud [13.996191403653754]
ディープラーニングモデル(DLRM)は、スパース機能を管理するために大きな埋め込みテーブルに依存している。
このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。
テクノロジ企業は、DLRMモデルを大規模にトレーニングするための、広範なクラウドベースのサービスを構築している。
DLRMのための弾性トレーニングフレームワークであるDLRover-RMを導入し,資源利用量を増やし,クラウド環境の不安定性に対処する。
論文 参考訳(メタデータ) (2023-04-04T02:13:46Z) - RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-11-09T22:21:19Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。