論文の概要: Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards
- arxiv url: http://arxiv.org/abs/2205.04702v1
- Date: Tue, 10 May 2022 07:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:15:39.252459
- Title: Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards
- Title(参考訳): GPUスクラッチによるパーソナライズドレコメンデーションシステムのトレーニング:後方ではなく後方へ向けて
- Authors: Youngeun Kwon, Minsoo Rhu
- Abstract要約: パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
- 参考スコア(独自算出の注目度): 1.7733623930581417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalized recommendation models (RecSys) are one of the most popular
machine learning workload serviced by hyperscalers. A critical challenge of
training RecSys is its high memory capacity requirements, reaching hundreds of
GBs to TBs of model size. In RecSys, the so-called embedding layers account for
the majority of memory usage so current systems employ a hybrid CPU-GPU design
to have the large CPU memory store the memory hungry embedding layers.
Unfortunately, training embeddings involve several memory bandwidth intensive
operations which is at odds with the slow CPU memory, causing performance
overheads. Prior work proposed to cache frequently accessed embeddings inside
GPU memory as means to filter down the embedding layer traffic to CPU memory,
but this paper observes several limitations with such cache design. In this
work, we present a fundamentally different approach in designing embedding
caches for RecSys. Our proposed ScratchPipe architecture utilizes unique
properties of RecSys training to develop an embedding cache that not only sees
the past but also the "future" cache accesses. ScratchPipe exploits such
property to guarantee that the active working set of embedding layers can
"always" be captured inside our proposed cache design, enabling embedding layer
training to be conducted at GPU memory speed.
- Abstract(参考訳): パーソナライズドレコメンデーションモデル(recsys)は、ハイパースケーラによって提供される最もポピュラーな機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
残念なことに、トレーニングの埋め込みには、遅いCPUメモリに反するメモリ帯域幅の集中的な操作がいくつか含まれており、パフォーマンス上のオーバーヘッドが発生している。
本稿では,GPUメモリ内に頻繁にアクセスされる埋め込み層を,CPUメモリへの埋め込み層トラフィックをフィルタする手法としてキャッシュすることを提案する。
本研究では,RecSysの埋め込みキャッシュ設計において,基本的に異なるアプローチを提案する。
提案するscratchpipeアーキテクチャは,recsysトレーニングのユニークな特性を利用して,過去だけでなく"将来の"キャッシュアクセスも参照可能な埋め込みキャッシュを開発する。
scratchpipeではこのような特性を利用して,提案するキャッシュ設計内で,組込みレイヤのアクティブなワーキングセットを"常に"キャプチャできることを保証することで,組込みレイヤのトレーニングをgpuメモリ速度で実行可能にする。
関連論文リスト
- Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Optimizing L1 cache for embedded systems through grammatical evolution [1.9371782627708491]
文法的進化(GE)は、与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる。
提案手法では,実世界のベースライン構成に対して平均62%の効率向上が得られるキャッシュ構成を見つけることができる。
論文 参考訳(メタデータ) (2023-03-06T18:10:00Z) - Demand Layering for Real-Time DNN Inference with Minimized Memory Usage [2.5768647103950357]
ディープニューラルネットワーク(DNN)モデルパラメータは、実行前にGPUメモリにロードされる。
本稿では,DNNの層間実行を利用したDemand Layeringを提案する。
私たちの実装では、96.5%のメモリ削減と、平均14.8%の遅延オーバーヘッドが示されています。
論文 参考訳(メタデータ) (2022-10-08T13:38:48Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文 参考訳(メタデータ) (2021-05-27T17:46:16Z) - High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文 参考訳(メタデータ) (2021-03-01T01:43:26Z) - CNN with large memory layers [2.368995563245609]
この作業は、最近提案された製品キーメモリ構造であるcitelarge_Memoryを中心に、多くのコンピュータビジョンアプリケーションに実装されている。
メモリ構造は、ほぼすべてのニューラルネットワークアーキテクチャに拡張されるのに適した単純な計算プリミティブと見なすことができる。
論文 参考訳(メタデータ) (2021-01-27T20:58:20Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。