論文の概要: CPR: Understanding and Improving Failure Tolerant Training for Deep
Learning Recommendation with Partial Recovery
- arxiv url: http://arxiv.org/abs/2011.02999v1
- Date: Thu, 5 Nov 2020 17:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:50:30.778197
- Title: CPR: Understanding and Improving Failure Tolerant Training for Deep
Learning Recommendation with Partial Recovery
- Title(参考訳): CPR:部分回復を伴う深層学習勧告に対する耐障害性トレーニングの理解と改善
- Authors: Kiwan Maeng, Shivam Bharuka, Isabel Gao, Mark C. Jeffrey, Vikram
Saraph, Bor-Yiing Su, Caroline Trippel, Jiyan Yang, Mike Rabbat, Brandon
Lucia, Carole-Jean Wu
- Abstract要約: 本稿では,リコメンデーションモデルのための部分的リカバリトレーニングシステムであるCPRを提案する。
CPRは、トレーニング中にノードがフェールした場合にチェックポイントをロードすることなく、非フェールノードの進行を可能にすることで、一貫性要件を緩和する。
CPRの2種類のCPR-MFUとCPR-SSUは、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減した。
- 参考スコア(独自算出の注目度): 8.754247642083948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper proposes and optimizes a partial recovery training system, CPR, for
recommendation models. CPR relaxes the consistency requirement by enabling
non-failed nodes to proceed without loading checkpoints when a node fails
during training, improving failure-related overheads. The paper is the first to
the extent of our knowledge to perform a data-driven, in-depth analysis of
applying partial recovery to recommendation models and identified a trade-off
between accuracy and performance. Motivated by the analysis, we present CPR, a
partial recovery training system that can reduce the training time and maintain
the desired level of model accuracy by (1) estimating the benefit of partial
recovery, (2) selecting an appropriate checkpoint saving interval, and (3)
prioritizing to save updates of more frequently accessed parameters. Two
variants of CPR, CPR-MFU and CPR-SSU, reduce the checkpoint-related overhead
from 8.2-8.5% to 0.53-0.68% compared to full recovery, on a configuration
emulating the failure pattern and overhead of a production-scale cluster. While
reducing overhead significantly, CPR achieves model quality on par with the
more expensive full recovery scheme, training the state-of-the-art
recommendation model using Criteo's Ads CTR dataset. Our preliminary results
also suggest that CPR can speed up training on a real production-scale cluster,
without notably degrading the accuracy.
- Abstract(参考訳): 本稿では,リコメンデーションモデルのための部分的回復訓練システムであるCPRを提案し,最適化する。
CPRは、トレーニング中にノードが障害発生時にチェックポイントをロードすることなく、非障害ノードの進行を可能にすることで、一貫性要件を緩和する。
本稿は,レコメンデーションモデルに部分的リカバリを適用するというデータ駆動型詳細な分析を行い,精度と性能のトレードオフを特定するための,我々の知識の初めての試みである。
そこで本研究では,(1)部分回復の利点を推定し,(2)適切なチェックポイント保存区間を選択し,(3)より頻繁にアクセスされるパラメータの更新を優先することで,トレーニング時間を短縮し,所望のモデルの精度を維持する部分回復訓練システムであるcprを提案する。
CPR-MFUとCPR-SSUの2つのバリエーションは、プロダクションスケールクラスタの障害パターンとオーバーヘッドをエミュレートした構成で、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減している。
オーバーヘッドを大幅に削減しながら、CPRはより高価なフルリカバリスキームと同等のモデル品質を実現し、CriteoのAds CTRデータセットを使用して最先端のレコメンデーションモデルをトレーニングする。
予備的な結果は,CPRが実運用規模のクラスタでのトレーニングを,特に精度を低下させることなく高速化できることを示唆している。
関連論文リスト
- Better Schedules for Low Precision Training of Deep Neural Networks [13.88763215392452]
周期的精度訓練(CPT)は、周期的スケジュールに従って、訓練を通しての精度を動的に調整する。
CPTはトレーニング効率が特に向上し、実際にDNNのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-04T17:33:39Z) - CORE: Mitigating Catastrophic Forgetting in Continual Learning through
Cognitive Replay [15.201785535122385]
コグニティブ・リプレイ(CORE)は、人間の認知的レビュープロセスからインスピレーションを得ている。
COREはスプリットCIFAR10で平均37.95%の精度を達成し、最高のベースライン法を6.52%上回っている。
これにより、最上位のベースラインに比べて、最も貧弱なパフォーマンスタスクの精度が6.30%向上する。
論文 参考訳(メタデータ) (2024-02-02T12:04:44Z) - Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - CPR-Coach: Recognizing Composite Error Actions based on Single-class
Training [15.454446755237587]
本稿では,CPRにおける誤り行動認識とスキルアセスメントを完遂する視覚ベースシステムを構築する。
13種類の単一エラー行動と74種類の複合的エラー行動を定義した。
本研究では,制限された監視下でのマルチエラー認識性能を向上させるために,ImagineNetという認知に触発されたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-21T01:39:13Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Understanding the Effects of Adversarial Personalized Ranking
Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。
APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文 参考訳(メタデータ) (2021-07-29T10:22:20Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - RECONSIDER: Re-Ranking using Span-Focused Cross-Attention for Open
Domain Question Answering [49.024513062811685]
本研究では,スパン抽出タスクのための簡易かつ効果的な再ランク付け手法(RECONSIDER)を開発した。
ReCONSIDERは、MRCモデルの高信頼予測から抽出された正および負の例に基づいて訓練される。
パス内のスパンアノテーションを使用して、より小さな候補セットに対してスパンに焦点を当てた再ランクを実行する。
論文 参考訳(メタデータ) (2020-10-21T04:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。