論文の概要: CPR: Understanding and Improving Failure Tolerant Training for Deep
Learning Recommendation with Partial Recovery
- arxiv url: http://arxiv.org/abs/2011.02999v1
- Date: Thu, 5 Nov 2020 17:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:50:30.778197
- Title: CPR: Understanding and Improving Failure Tolerant Training for Deep
Learning Recommendation with Partial Recovery
- Title(参考訳): CPR:部分回復を伴う深層学習勧告に対する耐障害性トレーニングの理解と改善
- Authors: Kiwan Maeng, Shivam Bharuka, Isabel Gao, Mark C. Jeffrey, Vikram
Saraph, Bor-Yiing Su, Caroline Trippel, Jiyan Yang, Mike Rabbat, Brandon
Lucia, Carole-Jean Wu
- Abstract要約: 本稿では,リコメンデーションモデルのための部分的リカバリトレーニングシステムであるCPRを提案する。
CPRは、トレーニング中にノードがフェールした場合にチェックポイントをロードすることなく、非フェールノードの進行を可能にすることで、一貫性要件を緩和する。
CPRの2種類のCPR-MFUとCPR-SSUは、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減した。
- 参考スコア(独自算出の注目度): 8.754247642083948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper proposes and optimizes a partial recovery training system, CPR, for
recommendation models. CPR relaxes the consistency requirement by enabling
non-failed nodes to proceed without loading checkpoints when a node fails
during training, improving failure-related overheads. The paper is the first to
the extent of our knowledge to perform a data-driven, in-depth analysis of
applying partial recovery to recommendation models and identified a trade-off
between accuracy and performance. Motivated by the analysis, we present CPR, a
partial recovery training system that can reduce the training time and maintain
the desired level of model accuracy by (1) estimating the benefit of partial
recovery, (2) selecting an appropriate checkpoint saving interval, and (3)
prioritizing to save updates of more frequently accessed parameters. Two
variants of CPR, CPR-MFU and CPR-SSU, reduce the checkpoint-related overhead
from 8.2-8.5% to 0.53-0.68% compared to full recovery, on a configuration
emulating the failure pattern and overhead of a production-scale cluster. While
reducing overhead significantly, CPR achieves model quality on par with the
more expensive full recovery scheme, training the state-of-the-art
recommendation model using Criteo's Ads CTR dataset. Our preliminary results
also suggest that CPR can speed up training on a real production-scale cluster,
without notably degrading the accuracy.
- Abstract(参考訳): 本稿では,リコメンデーションモデルのための部分的回復訓練システムであるCPRを提案し,最適化する。
CPRは、トレーニング中にノードが障害発生時にチェックポイントをロードすることなく、非障害ノードの進行を可能にすることで、一貫性要件を緩和する。
本稿は,レコメンデーションモデルに部分的リカバリを適用するというデータ駆動型詳細な分析を行い,精度と性能のトレードオフを特定するための,我々の知識の初めての試みである。
そこで本研究では,(1)部分回復の利点を推定し,(2)適切なチェックポイント保存区間を選択し,(3)より頻繁にアクセスされるパラメータの更新を優先することで,トレーニング時間を短縮し,所望のモデルの精度を維持する部分回復訓練システムであるcprを提案する。
CPR-MFUとCPR-SSUの2つのバリエーションは、プロダクションスケールクラスタの障害パターンとオーバーヘッドをエミュレートした構成で、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減している。
オーバーヘッドを大幅に削減しながら、CPRはより高価なフルリカバリスキームと同等のモデル品質を実現し、CriteoのAds CTRデータセットを使用して最先端のレコメンデーションモデルをトレーニングする。
予備的な結果は,CPRが実運用規模のクラスタでのトレーニングを,特に精度を低下させることなく高速化できることを示唆している。
関連論文リスト
- Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Better Schedules for Low Precision Training of Deep Neural Networks [13.88763215392452]
周期的精度訓練(CPT)は、周期的スケジュールに従って、訓練を通しての精度を動的に調整する。
CPTはトレーニング効率が特に向上し、実際にDNNのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-04T17:33:39Z) - CPR-Coach: Recognizing Composite Error Actions based on Single-class
Training [15.454446755237587]
本稿では,CPRにおける誤り行動認識とスキルアセスメントを完遂する視覚ベースシステムを構築する。
13種類の単一エラー行動と74種類の複合的エラー行動を定義した。
本研究では,制限された監視下でのマルチエラー認識性能を向上させるために,ImagineNetという認知に触発されたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-21T01:39:13Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Understanding the Effects of Adversarial Personalized Ranking
Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。
APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文 参考訳(メタデータ) (2021-07-29T10:22:20Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - RECONSIDER: Re-Ranking using Span-Focused Cross-Attention for Open
Domain Question Answering [49.024513062811685]
本研究では,スパン抽出タスクのための簡易かつ効果的な再ランク付け手法(RECONSIDER)を開発した。
ReCONSIDERは、MRCモデルの高信頼予測から抽出された正および負の例に基づいて訓練される。
パス内のスパンアノテーションを使用して、より小さな候補セットに対してスパンに焦点を当てた再ランクを実行する。
論文 参考訳(メタデータ) (2020-10-21T04:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。