論文の概要: BagPipe: Accelerating Deep Recommendation Model Training
- arxiv url: http://arxiv.org/abs/2202.12429v1
- Date: Thu, 24 Feb 2022 23:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:25:27.767042
- Title: BagPipe: Accelerating Deep Recommendation Model Training
- Title(参考訳): BagPipe: 深層推奨モデルのトレーニングを加速する
- Authors: Saurabh Agarwal, Ziyi Zhang, Shivaram Venkataraman
- Abstract要約: Bagpipeは、キャッシュとプレフェッチを使用して、リモート埋め込みアクセスと計算を重複させるディープレコメンデーションモデルをトレーニングするシステムである。
3つのデータセットと2つのモデルを用いた実験により、我々のアプローチは、アートベースラインの状態と比較して最大6.2倍の速度を提供することが示された。
- 参考スコア(独自算出の注目度): 7.819439817924376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning based recommendation models (DLRM) are widely used in several
business critical applications. Training such recommendation models efficiently
is challenging primarily because they consist of billions of embedding-based
parameters which are often stored remotely leading to significant overheads
from embedding access. By profiling existing DLRM training, we observe that
only 8.5% of the iteration time is spent in forward/backward pass while the
remaining time is spent on embedding and model synchronization. Our key insight
in this paper is that access to embeddings have a specific structure and
pattern which can be used to accelerate training. We observe that embedding
accesses are heavily skewed, with almost 1% of embeddings represent more than
92% of total accesses. Further, we observe that during training we can
lookahead at future batches to determine exactly which embeddings will be
needed at what iteration in the future. Based on these insight, we propose
Bagpipe, a system for training deep recommendation models that uses caching and
prefetching to overlap remote embedding accesses with the computation. We
designed an Oracle Cacher, a new system component which uses our lookahead
algorithm to generate optimal cache update decisions and provide strong
consistency guarantees. Our experiments using three datasets and two models
shows that our approach provides a speed up of up to 6.2x compared to state of
the art baselines, while providing the same convergence and reproducibility
guarantees as synchronous training.
- Abstract(参考訳): ディープラーニングベースのレコメンデーションモデル(DLRM)は、いくつかのビジネスクリティカルなアプリケーションで広く使われている。
このようなレコメンデーションモデルを効率的にトレーニングすることは、主に数十億の組み込みベースのパラメータで構成されており、しばしばリモートで保存されるため、組み込みアクセスからかなりのオーバーヘッドが発生する。
既存のDLRMトレーニングをプロファイリングすることで、イテレーション時間のわずか8.5%が前方/後方通過に費やされ、残りの時間は埋め込みとモデル同期に費やされている。
この論文の重要な洞察は、埋め込みへのアクセスはトレーニングを加速するために使用できる特定の構造とパターンを持っていることです。
埋め込みアクセスの約1%は、全アクセスの92%以上を占めています。
さらに、トレーニング中に将来のバッチを見て、将来のイテレーションでどの埋め込みが必要なのかを正確に判断することもできます。
これらの知見に基づいて、キャッシュとプリフェッチを使用してリモート埋め込みアクセスと計算を重複させるディープレコメンデーションモデルをトレーニングするシステムであるBagpipeを提案する。
Oracle Cacherは、ルックアヘッドアルゴリズムを使用して最適なキャッシュ更新決定を生成し、強い一貫性を保証する新しいシステムコンポーネントです。
3つのデータセットと2つのモデルを用いて実験したところ、我々の手法は、アートベースラインの状態と比較して最大6.2倍の速度を提供する一方で、同期トレーニングと同じ収束と再現性保証を提供する。
関連論文リスト
- Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - HET: Scaling out Huge Embedding Model Training via Cache-enabled
Distributed Framework [17.114812060566766]
我々は,大規模な埋め込みモデルトレーニングのスケーラビリティを大幅に向上させる新しいシステムフレームワークであるHETを提案する。
HETは、組込み通信の削減を最大88%達成し、最先端のベースラインよりも最大20.68倍の性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-14T08:18:10Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文 参考訳(メタデータ) (2020-11-04T00:51:40Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。