Fugu-MT 論文翻訳(概要): CPR: Understanding and Improving Failure Tolerant Training for Deep Learning Recommendation with Partial Recovery

論文の概要: CPR: Understanding and Improving Failure Tolerant Training for Deep Learning Recommendation with Partial Recovery

arxiv url: http://arxiv.org/abs/2011.02999v1
Date: Thu, 5 Nov 2020 17:54:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 12:50:30.778197
Title: CPR: Understanding and Improving Failure Tolerant Training for Deep Learning Recommendation with Partial Recovery
Title（参考訳）: CPR:部分回復を伴う深層学習勧告に対する耐障害性トレーニングの理解と改善
Authors: Kiwan Maeng, Shivam Bharuka, Isabel Gao, Mark C. Jeffrey, Vikram Saraph, Bor-Yiing Su, Caroline Trippel, Jiyan Yang, Mike Rabbat, Brandon Lucia, Carole-Jean Wu
Abstract要約: 本稿では,リコメンデーションモデルのための部分的リカバリトレーニングシステムであるCPRを提案する。 CPRは、トレーニング中にノードがフェールした場合にチェックポイントをロードすることなく、非フェールノードの進行を可能にすることで、一貫性要件を緩和する。 CPRの2種類のCPR-MFUとCPR-SSUは、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減した。
参考スコア（独自算出の注目度）: 8.754247642083948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper proposes and optimizes a partial recovery training system, CPR, for recommendation models. CPR relaxes the consistency requirement by enabling non-failed nodes to proceed without loading checkpoints when a node fails during training, improving failure-related overheads. The paper is the first to the extent of our knowledge to perform a data-driven, in-depth analysis of applying partial recovery to recommendation models and identified a trade-off between accuracy and performance. Motivated by the analysis, we present CPR, a partial recovery training system that can reduce the training time and maintain the desired level of model accuracy by (1) estimating the benefit of partial recovery, (2) selecting an appropriate checkpoint saving interval, and (3) prioritizing to save updates of more frequently accessed parameters. Two variants of CPR, CPR-MFU and CPR-SSU, reduce the checkpoint-related overhead from 8.2-8.5% to 0.53-0.68% compared to full recovery, on a configuration emulating the failure pattern and overhead of a production-scale cluster. While reducing overhead significantly, CPR achieves model quality on par with the more expensive full recovery scheme, training the state-of-the-art recommendation model using Criteo's Ads CTR dataset. Our preliminary results also suggest that CPR can speed up training on a real production-scale cluster, without notably degrading the accuracy.
Abstract（参考訳）: 本稿では,リコメンデーションモデルのための部分的回復訓練システムであるCPRを提案し,最適化する。 CPRは、トレーニング中にノードが障害発生時にチェックポイントをロードすることなく、非障害ノードの進行を可能にすることで、一貫性要件を緩和する。本稿は,レコメンデーションモデルに部分的リカバリを適用するというデータ駆動型詳細な分析を行い,精度と性能のトレードオフを特定するための,我々の知識の初めての試みである。そこで本研究では,(1)部分回復の利点を推定し,(2)適切なチェックポイント保存区間を選択し,(3)より頻繁にアクセスされるパラメータの更新を優先することで,トレーニング時間を短縮し,所望のモデルの精度を維持する部分回復訓練システムであるcprを提案する。 CPR-MFUとCPR-SSUの2つのバリエーションは、プロダクションスケールクラスタの障害パターンとオーバーヘッドをエミュレートした構成で、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減している。オーバーヘッドを大幅に削減しながら、CPRはより高価なフルリカバリスキームと同等のモデル品質を実現し、CriteoのAds CTRデータセットを使用して最先端のレコメンデーションモデルをトレーニングする。予備的な結果は,CPRが実運用規模のクラスタでのトレーニングを,特に精度を低下させることなく高速化できることを示唆している。

関連論文リスト

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文参考訳（メタデータ） (2025-07-22T17:56:01Z)
Partial Forward Blocking: A Novel Data Pruning Paradigm for Lossless Training Acceleration [32.21701911161334]
既存のデータプルーニングアプローチは、これらの重要でないサンプルを取り除き、トレーニングを加速することを目的としている。本稿では、ロスレストレーニングアクセラレーションのための新しいフレームワークであるPartial Forward Blocking (PFB)を提案する。 PFBは,プルーニング試料の深層フォワードパスとバックプロパゲーションの計算オーバーヘッドを著しく低減する。 ImageNetでは、PFBは0.5%の精度向上と33%のトレーニング時間短縮を実現し、40%のデータをプルーニングした。
論文参考訳（メタデータ） (2025-06-30T09:53:26Z)
SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。 ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文参考訳（メタデータ） (2025-01-14T05:56:26Z)
Optimizing Large Model Training through Overlapped Activation Recomputation [24.28543166026873]
我々は、トレーニングパイプラインにおける通信と重複する再計算によってオーバーヘッドを削減する新しい再計算フレームワークであるLynxを紹介する。 1.3B-23Bパラメータを持つGPTモデルによる包括的評価の結果,Lynxは既存の再計算手法よりも1.37倍高い性能を示した。
論文参考訳（メタデータ） (2024-06-13T02:31:36Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Better Schedules for Low Precision Training of Deep Neural Networks [13.88763215392452]
周期的精度訓練(CPT)は、周期的スケジュールに従って、訓練を通しての精度を動的に調整する。 CPTはトレーニング効率が特に向上し、実際にDNNのパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-03-04T17:33:39Z)
CPR-Coach: Recognizing Composite Error Actions based on Single-class Training [15.454446755237587]
本稿では,CPRにおける誤り行動認識とスキルアセスメントを完遂する視覚ベースシステムを構築する。 13種類の単一エラー行動と74種類の複合的エラー行動を定義した。本研究では,制限された監視下でのマルチエラー認識性能を向上させるために,ImagineNetという認知に触発されたフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-21T01:39:13Z)
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。 ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文参考訳（メタデータ） (2022-04-12T17:55:38Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Understanding the Effects of Adversarial Personalized Ranking Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。 APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文参考訳（メタデータ） (2021-07-29T10:22:20Z)
FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文参考訳（メタデータ） (2021-07-07T13:39:08Z)
Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文参考訳（メタデータ） (2021-02-26T16:16:28Z)
RECONSIDER: Re-Ranking using Span-Focused Cross-Attention for Open Domain Question Answering [49.024513062811685]
本研究では,スパン抽出タスクのための簡易かつ効果的な再ランク付け手法(RECONSIDER)を開発した。 ReCONSIDERは、MRCモデルの高信頼予測から抽出された正および負の例に基づいて訓練される。パス内のスパンアノテーションを使用して、より小さな候補セットに対してスパンに焦点を当てた再ランクを実行する。
論文参考訳（メタデータ） (2020-10-21T04:28:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。