論文の概要: BagPipe: Accelerating Deep Recommendation Model Training
- arxiv url: http://arxiv.org/abs/2202.12429v3
- Date: Wed, 23 Aug 2023 21:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 19:11:51.891510
- Title: BagPipe: Accelerating Deep Recommendation Model Training
- Title(参考訳): BagPipe: 深層推奨モデルのトレーニングを加速する
- Authors: Saurabh Agarwal, Chengpo Yan, Ziyi Zhang, Shivaram Venkataraman
- Abstract要約: Bagpipeは、キャッシュとプレフェッチを使用して、リモート埋め込みアクセスと計算を重複させるディープレコメンデーションモデルをトレーニングするシステムである。
私たちは、ルックアヘッドアルゴリズムを使用して最適なキャッシュ更新決定を生成する新しいコンポーネントであるOracle Cacherを設計します。
- 参考スコア(独自算出の注目度): 9.911467752221863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning based recommendation models (DLRM) are widely used in several
business critical applications. Training such recommendation models efficiently
is challenging because they contain billions of embedding-based parameters,
leading to significant overheads from embedding access. By profiling existing
systems for DLRM training, we observe that around 75\% of the iteration time is
spent on embedding access and model synchronization. Our key insight in this
paper is that embedding access has a specific structure which can be used to
accelerate training. We observe that embedding accesses are heavily skewed,
with around 1\% of embeddings representing more than 92\% of total accesses.
Further, we observe that during offline training we can lookahead at future
batches to determine exactly which embeddings will be needed at what iteration
in the future. Based on these insights, we develop Bagpipe, a system for
training deep recommendation models that uses caching and prefetching to
overlap remote embedding accesses with the computation. We design an Oracle
Cacher, a new component that uses a lookahead algorithm to generate optimal
cache update decisions while providing strong consistency guarantees against
staleness. We also design a logically replicated, physically partitioned cache
and show that our design can reduce synchronization overheads in a distributed
setting. Finally, we propose a disaggregated system architecture and show that
our design can enable low-overhead fault tolerance. Our experiments using three
datasets and four models show that Bagpipe provides a speed up of up to 5.6x
compared to state of the art baselines, while providing the same convergence
and reproducibility guarantees as synchronous training.
- Abstract(参考訳): ディープラーニングベースのレコメンデーションモデル(DLRM)は、いくつかのビジネスクリティカルなアプリケーションで広く使われている。
このようなレコメンデーションモデルを効率的にトレーニングすることは、数十億の埋め込みベースのパラメータを含むため困難である。
DLRMトレーニングのために既存のシステムをプロファイリングすることにより、イテレーション時間の約75%が埋め込みアクセスとモデル同期に費やされていることが分かる。
この論文の重要な洞察は、組み込みアクセスはトレーニングを加速するために使用できる特定の構造を持っていることです。
組込みアクセスは偏りが強く,組込みアクセスの約1\%が総アクセスの92\%以上を表わす。
さらに、オフライントレーニングの間、将来のバッチを見て、将来のイテレーションでどの埋め込みが必要なのかを正確に判断することができます。
これらの知見に基づいて,キャッシュとプリフェッチを使用してリモート埋め込みアクセスと計算を重畳するディープレコメンデーションモデルをトレーニングするシステムであるBagpipeを開発した。
私たちはoracle cacherを設計しました。これはlookaheadアルゴリズムを使用して最適なキャッシュ更新決定を生成する新しいコンポーネントです。
また、論理的に複製され、物理的にパーティショニングされたキャッシュを設計し、分散環境での同期オーバーヘッドを低減することができることを示す。
最後に,システムアーキテクチャを分解し,低オーバヘッド耐障害性を実現することを提案する。
3つのデータセットと4つのモデルを用いて実験したところ、Bagpipeはアートベースラインの状態と比較して最大5.6倍の速度を提供し、同期トレーニングと同じ収束と再現性保証を提供する。
関連論文リスト
- Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - HET: Scaling out Huge Embedding Model Training via Cache-enabled
Distributed Framework [17.114812060566766]
我々は,大規模な埋め込みモデルトレーニングのスケーラビリティを大幅に向上させる新しいシステムフレームワークであるHETを提案する。
HETは、組込み通信の削減を最大88%達成し、最先端のベースラインよりも最大20.68倍の性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-14T08:18:10Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文 参考訳(メタデータ) (2020-11-04T00:51:40Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。