論文の概要: Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards
- arxiv url: http://arxiv.org/abs/2205.04702v1
- Date: Tue, 10 May 2022 07:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:15:39.252459
- Title: Training Personalized Recommendation Systems from (GPU) Scratch: Look
Forward not Backwards
- Title(参考訳): GPUスクラッチによるパーソナライズドレコメンデーションシステムのトレーニング:後方ではなく後方へ向けて
- Authors: Youngeun Kwon, Minsoo Rhu
- Abstract要約: パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
- 参考スコア(独自算出の注目度): 1.7733623930581417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalized recommendation models (RecSys) are one of the most popular
machine learning workload serviced by hyperscalers. A critical challenge of
training RecSys is its high memory capacity requirements, reaching hundreds of
GBs to TBs of model size. In RecSys, the so-called embedding layers account for
the majority of memory usage so current systems employ a hybrid CPU-GPU design
to have the large CPU memory store the memory hungry embedding layers.
Unfortunately, training embeddings involve several memory bandwidth intensive
operations which is at odds with the slow CPU memory, causing performance
overheads. Prior work proposed to cache frequently accessed embeddings inside
GPU memory as means to filter down the embedding layer traffic to CPU memory,
but this paper observes several limitations with such cache design. In this
work, we present a fundamentally different approach in designing embedding
caches for RecSys. Our proposed ScratchPipe architecture utilizes unique
properties of RecSys training to develop an embedding cache that not only sees
the past but also the "future" cache accesses. ScratchPipe exploits such
property to guarantee that the active working set of embedding layers can
"always" be captured inside our proposed cache design, enabling embedding layer
training to be conducted at GPU memory speed.
- Abstract(参考訳): パーソナライズドレコメンデーションモデル(recsys)は、ハイパースケーラによって提供される最もポピュラーな機械学習ワークロードの1つである。
RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。
RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
残念なことに、トレーニングの埋め込みには、遅いCPUメモリに反するメモリ帯域幅の集中的な操作がいくつか含まれており、パフォーマンス上のオーバーヘッドが発生している。
本稿では,GPUメモリ内に頻繁にアクセスされる埋め込み層を,CPUメモリへの埋め込み層トラフィックをフィルタする手法としてキャッシュすることを提案する。
本研究では,RecSysの埋め込みキャッシュ設計において,基本的に異なるアプローチを提案する。
提案するscratchpipeアーキテクチャは,recsysトレーニングのユニークな特性を利用して,過去だけでなく"将来の"キャッシュアクセスも参照可能な埋め込みキャッシュを開発する。
scratchpipeではこのような特性を利用して,提案するキャッシュ設計内で,組込みレイヤのアクティブなワーキングセットを"常に"キャプチャできることを保証することで,組込みレイヤのトレーニングをgpuメモリ速度で実行可能にする。
関連論文リスト
- A Method for Building Large Language Models with Predefined KV Cache Capacity [11.710667043543545]
本稿では、無限コンテキストを扱う場合の従来のKVキャッシュにおける過大なメモリ消費の問題に対処するために、固定長のKVキャッシュを導入する。
キー値ベクトル列を動的に更新することにより、限られたキャッシュ容量内で効率的な推論を実現する。
実験の結果,提案手法は推論品質を維持しながらメモリ使用量を大幅に削減することがわかった。
論文 参考訳(メタデータ) (2024-11-24T11:30:00Z) - InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。
実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。
プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。
最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - CNN with large memory layers [2.368995563245609]
この作業は、最近提案された製品キーメモリ構造であるcitelarge_Memoryを中心に、多くのコンピュータビジョンアプリケーションに実装されている。
メモリ構造は、ほぼすべてのニューラルネットワークアーキテクチャに拡張されるのに適した単純な計算プリミティブと見なすことができる。
論文 参考訳(メタデータ) (2021-01-27T20:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。