論文の概要: ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding
- arxiv url: http://arxiv.org/abs/2104.01981v1
- Date: Mon, 5 Apr 2021 16:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:16:59.103407
- Title: ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding
- Title(参考訳): ecrm: 消去コーディングによるレコメンデーションモデルトレーニングのための効率的なフォールトトレランス
- Authors: Kaige Liu, Jack Kosaian, K. V. Rashmi
- Abstract要約: ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。
チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
- 参考スコア(独自算出の注目度): 1.418033127602866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-learning-based recommendation models (DLRMs) are widely deployed to
serve personalized content to users. DLRMs are large in size due to their use
of large embedding tables, and are trained by distributing the model across the
memory of tens or hundreds of servers. Server failures are common in such large
distributed systems and must be mitigated to enable training to progress.
Checkpointing is the primary approach used for fault tolerance in these
systems, but incurs significant training-time overhead both during normal
operation and when recovering from failures. As these overheads increase with
DLRM size, checkpointing is slated to become an even larger overhead for future
DLRMs, which are expected to grow in size. This calls for rethinking fault
tolerance in DLRM training.
We present ECRM, a DLRM training system that achieves efficient fault
tolerance using erasure coding. ECRM chooses which DLRM parameters to encode,
correctly and efficiently updates parities, and enables training to proceed
without any pauses, while maintaining consistency of the recovered parameters.
We implement ECRM atop XDL, an open-source, industrial-scale DLRM training
system. Compared to checkpointing, ECRM reduces training-time overhead for
large DLRMs by up to 88%, recovers from failures up to 10.3$\times$ faster, and
allows training to proceed during recovery. These results show the promise of
erasure coding in imparting efficient fault tolerance to training current and
future DLRMs.
- Abstract(参考訳): ディープラーニングベースのレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きくなり、モデルを数十から数百のサーバのメモリに分散させることで訓練される。
このような大規模な分散システムでは、サーバ障害が一般的であり、トレーニングを前進させるためには、緩和される必要がある。
チェックポインティングは、これらのシステムにおける耐障害性の主要なアプローチであるが、通常の操作時と障害からの回復時の両方で、トレーニング時間にかなりのオーバーヘッドが発生する。
これらのオーバーヘッドがDLRMサイズとともに増加するにつれて、チェックポイントは、サイズが大きくなると予想される将来のDLRMにとって、さらに大きなオーバーヘッドになる。
これはDLRMトレーニングにおけるフォールトトレランスの再考を要求する。
本稿では,消去符号を用いた効率的な耐故障性を実現するDLRMトレーニングシステムであるECRMを提案する。
ECRMは、どのDLRMパラメータをエンコードするかを選択し、パリティを正しく効率的に更新し、回復したパラメータの一貫性を維持しながら、停止せずにトレーニングを進めることができる。
我々は,オープンソースの産業規模のDLRMトレーニングシステムであるXDL上にECRMを実装した。
チェックポイントと比較して、ECRMは大規模なDLRMのトレーニング時間オーバーヘッドを最大88%削減し、障害から最大10.3$\times$高速に回復し、リカバリ中にトレーニングを進めることができる。
これらの結果は,現在および将来のdlrmに効率的なフォールトトレランスを与える上で,コーディングの消去が期待できることを示す。
関連論文リスト
- Blockchain-enabled Trustworthy Federated Unlearning [50.01101423318312]
フェデレートアンラーニング(Federated Unlearning)は、分散クライアントのデータオーナシップを保護するための、有望なパラダイムである。
既存の作業では、分散クライアントからの履歴モデルパラメータを保持するために、中央サーバが必要である。
本稿では,ブロックチェーンによる信頼性の高いフェデレーションアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T07:04:48Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - MTrainS: Improving DLRM training efficiency using heterogeneous memories [5.195887979684162]
Deep Learning Recommendation Models (DLRM)では、埋め込みテーブルを通じてカテゴリ入力をキャプチャするスパース機能がモデルサイズの主要なコントリビュータであり、高いメモリ帯域幅を必要とする。
本稿では,実世界展開モデルにおける埋め込みテーブルの帯域幅と局所性について検討する。
次に、バイトを含む異種メモリを活用するMTrainSを設計し、DLRMの階層的にアドレス指定可能なストレージクラスメモリをブロックする。
論文 参考訳(メタデータ) (2023-04-19T06:06:06Z) - ERM++: An Improved Baseline for Domain Generalization [74.8911552159422]
マルチソースドメイン一般化(DG)は、訓練されていないデータの新しい分布に一般化する分類器の能力を測定する。
経験的リスク最小化(ERM)訓練は,既存のDG法よりも優れていることを示す。
得られた手法をERM++と呼び、5つのマルチソースデータセット上でのDGの性能を5%以上向上させることを示す。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-11-09T22:21:19Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - The trade-offs of model size in large recommendation models : A 10000
$\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) [40.623439224839245]
埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。
本稿では、DLRMモデルを圧縮するための汎用パラメータ共有設定(PSS)を解析し、広範囲に評価する。
スケールは、DLRMモデルがより小さくなり、推論の高速化、デプロイの容易化、トレーニング時間の短縮につながることが示されています。
論文 参考訳(メタデータ) (2022-07-21T19:50:34Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed
Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。
提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。
非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2021-02-10T19:41:11Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。