Fugu-MT 論文翻訳(概要): Understanding Training Efficiency of Deep Learning Recommendation Models at Scale

論文の概要: Understanding Training Efficiency of Deep Learning Recommendation Models at Scale

arxiv url: http://arxiv.org/abs/2011.05497v1
Date: Wed, 11 Nov 2020 01:21:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 00:50:52.030184
Title: Understanding Training Efficiency of Deep Learning Recommendation Models at Scale
Title（参考訳）: 大規模深層学習勧告モデルの学習効率の理解
Authors: Bilge Acun, Matthew Murphy, Xiaodong Wang, Jade Nie, Carole-Jean Wu, Kim Hazelwood
Abstract要約: 本稿では,リコメンデーションモデルのトレーニングにGPUを使うことの難しさについて説明する。スケールにおけるハードウェア効率に影響を与える要因と、新しいスケールアップGPUサーバ設計であるZionから学んだこと。
参考スコア（独自算出の注目度）: 8.731263641794897
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of GPUs has proliferated for machine learning workflows and is now considered mainstream for many deep learning models. Meanwhile, when training state-of-the-art personal recommendation models, which consume the highest number of compute cycles at our large-scale datacenters, the use of GPUs came with various challenges due to having both compute-intensive and memory-intensive components. GPU performance and efficiency of these recommendation models are largely affected by model architecture configurations such as dense and sparse features, MLP dimensions. Furthermore, these models often contain large embedding tables that do not fit into limited GPU memory. The goal of this paper is to explain the intricacies of using GPUs for training recommendation models, factors affecting hardware efficiency at scale, and learnings from a new scale-up GPU server design, Zion.
Abstract（参考訳）: gpuの利用は機械学習のワークフローで広まり、今では多くのディープラーニングモデルで主流と見なされている。一方、私たちの大規模データセンターで最も多くの計算サイクルを消費する最先端のパーソナルレコメンデーションモデルをトレーニングする場合、GPUの使用は、計算集約型コンポーネントとメモリ集約型コンポーネントの両方を持つため、さまざまな課題に突き当たった。これらのレコメンデーションモデルのGPU性能と効率は、密度とスパース、MDP次元などのモデルアーキテクチャ構成に大きく影響される。さらに、これらのモデルは、しばしば、限られたGPUメモリに収まらない大きな埋め込みテーブルを含んでいる。本研究の目的は,GPUを用いた推薦モデルのトレーニング,大規模ハードウェア効率に影響を与える要因,そして新しいスケールアップGPUサーバ設計であるZionから学ぶことの難しさを説明することである。

関連論文リスト

An Efficient Training Algorithm for Models with Block-wise Sparsity [6.882042556551613]
本稿では,学習と推論において,計算コストとメモリコストの両方を削減できる効率的なトレーニングアルゴリズムを提案する。我々のアルゴリズムは、ベースラインに比べて性能低下を伴わずに計算とメモリコストを大幅に削減できる。
論文参考訳（メタデータ） (2025-03-27T19:14:27Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Scaling Laws for Upcycling Mixture-of-Experts Language Models [17.796361238003403]
大規模言語モデル(LLM)の事前トレーニングはリソース集約的であり、ハイエンドのGPUクラスタでも数ヶ月のトレーニング時間を必要とすることが多い。そのような計算要求を緩和する2つのアプローチがある: より小さなモデルを再利用して、より大きなモデルをトレーニングする(アップサイクル)、そして、Mix-of-experts (MoE)のような計算効率の良いモデルを訓練する。
論文参考訳（メタデータ） (2025-02-05T09:11:13Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。 NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。 GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文参考訳（メタデータ） (2024-07-18T18:47:52Z)
The Case for Co-Designing Model Architectures with Hardware [13.022505733049597]
ユーザがトランスモデルのランタイムパフォーマンスを最大化するためのガイドラインのセットを提供する。効率的なモデル形状を持つモデルのスループットは、最大で39%高くなっています。
論文参考訳（メタデータ） (2024-01-25T19:50:31Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
Survey on Large Scale Neural Network Training [48.424512364338746]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文参考訳（メタデータ） (2022-02-21T18:48:02Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文参考訳（メタデータ） (2021-04-09T16:43:11Z)
High-Performance Training by Exploiting Hot-Embeddings in Recommendation Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文参考訳（メタデータ） (2021-03-01T01:43:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。