Fugu-MT 論文翻訳(概要): Heterogeneous Acceleration Pipeline for Recommendation System Training

論文の概要: Heterogeneous Acceleration Pipeline for Recommendation System Training

arxiv url: http://arxiv.org/abs/2204.05436v1
Date: Mon, 11 Apr 2022 23:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 12:11:03.591666
Title: Heterogeneous Acceleration Pipeline for Recommendation System Training
Title（参考訳）: レコメンデーションシステムトレーニングのための不均一加速パイプライン
Authors: Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair
Abstract要約: レコメンデーションシステムは、深層学習と大規模な埋め込みテーブルによる計算強度とメモリ強度の融合を示す。本稿では、これらの懸念を克服するために、Hotlineと呼ばれる異種加速パイプラインを提供する。 Hotlineは、Intelが最適化したCPU-GPU DLRMとHugeCTRが最適化したGPUのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍に短縮する。
参考スコア（独自算出の注目度）: 2.346585343935306
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recommendation systems are unique as they show a conflation of compute and memory intensity due to their deep learning and massive embedding tables. Training these models typically involve a hybrid CPU-GPU mode, where GPUs accelerate the deep learning portion and the CPUs store and process the memory-intensive embedding tables. The hybrid mode incurs a substantial CPU-to-GPU transfer time and relies on main memory bandwidth to feed embeddings to GPU for deep learning acceleration. Alternatively, we can store the entire embeddings across GPUs to avoid the transfer time and utilize the GPU's High Bandwidth Memory (HBM). This approach requires GPU-to-GPU backend communication and scales the number of GPUs with the size of the embedding tables. To overcome these concerns, this paper offers a heterogeneous acceleration pipeline, called Hotline. Hotline leverages the insight that only a small number of embedding entries are accessed frequently, and can easily fit in a single GPU's HBM. Hotline implements a data-aware and model-aware scheduling pipeline that utilizes the (1) CPU main memory for not-frequently-accessed embeddings and (2) GPUs' local memory for frequently-accessed embeddings. Hotline improves the training throughput by dynamically stitching the execution of popular and not-popular inputs through a novel hardware accelerator and feeding to the GPUs. Results on real-world datasets and recommender models show that Hotline reduces the average training time by 3x and 1.8x in comparison to Intel-optimized CPU-GPU DLRM and HugeCTR-optimized GPU-only baseline, respectively. Hotline increases the overall training throughput to 35.7 epochs/hour in comparison to 5.3 epochs/hour for the Intel-optimized DLRM baseline
Abstract（参考訳）: 推奨システムは、深層学習と大規模な埋め込みテーブルによる計算とメモリの強度の融合を示すため、ユニークなシステムである。これらのモデルのトレーニングは通常、GPUが深層学習部を加速し、CPUがメモリ集約型埋め込みテーブルを格納し、処理するハイブリッドCPU-GPUモードを含む。ハイブリッドモードはCPUからGPUへの転送時間を大幅に増加させ、メインメモリ帯域に依存して、ディープラーニングアクセラレーションのためにGPUに埋め込みをフィードする。あるいは、GPU全体の埋め込みを格納して、転送時間を避け、GPUのHigh Bandwidth Memory(HBM)を利用することもできます。このアプローチでは、GPUからGPUまでのバックエンド通信を必要とし、埋め込みテーブルのサイズでGPUの数をスケールアップする。これらの懸念を克服するため,本稿ではhotlineと呼ばれる異種加速パイプラインを提案する。 Hotlineは、少数の埋め込みエントリのみが頻繁にアクセスされ、単一のGPUのHBMに容易に適合する、という洞察を活用する。 hotlineはデータ認識とモデル認識のスケジューリングパイプラインを実装しており、(1)cpuメインメモリを頻繁にアクセスされない組込みに、(2)gpuのローカルメモリを頻繁にアクセスする組込みに利用する。 hotlineは、新しいハードウェアアクセラレーションを通じて人気および非人気入力の実行を動的に縫い込み、gpuに供給することで、トレーニングスループットを向上させる。実世界のデータセットとレコメンダモデルの結果、ホットラインは、intel最適化のcpu-gpu dlrmとbigctr最適化のgpuのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍削減できることが示されている。 Hotlineはトレーニング全体のスループットを、Intel最適化DLRMベースラインの5.3エポック/時間と比較すると、35.7エポック/時間に向上する。

関連論文リスト

Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
GPU-centric Communication Schemes for HPC and ML Applications [0.0]
GPU対応の通信スキームは、ホストメモリをステージングすることなく、アプリケーション内のGPU対応の通信バッファを直接GPUからNICに移動させる。 CPUスレッドは、そのようなGPU認識のサポートがあっても、通信操作をオーケストレーションするために必要である。本稿では,CPUからGPUへ通信操作の制御経路を移動させる,GPU中心の通信方式について検討する。
論文参考訳（メタデータ） (2025-03-31T15:43:18Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
A Frequency-aware Software Cache for Large Recommendation System Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文参考訳（メタデータ） (2022-08-08T12:08:05Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
Large Graph Convolutional Network Training with GPU-Oriented Data Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文参考訳（メタデータ） (2021-03-04T21:00:17Z)
High-Performance Training by Exploiting Hot-Embeddings in Recommendation Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文参考訳（メタデータ） (2021-03-01T01:43:26Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。