Fugu-MT 論文翻訳(概要): Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards

論文の概要: Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards

arxiv url: http://arxiv.org/abs/2205.04702v1
Date: Tue, 10 May 2022 07:05:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-12 18:15:39.252459
Title: Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards
Title（参考訳）: GPUスクラッチによるパーソナライズドレコメンデーションシステムのトレーニング:後方ではなく後方へ向けて
Authors: Youngeun Kwon, Minsoo Rhu
Abstract要約: パーソナライズドレコメンデーションモデル(RecSys)は、ハイパースケーラによって提供される最も人気のある機械学習ワークロードの1つである。 RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。 RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。
参考スコア（独自算出の注目度）: 1.7733623930581417
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Personalized recommendation models (RecSys) are one of the most popular machine learning workload serviced by hyperscalers. A critical challenge of training RecSys is its high memory capacity requirements, reaching hundreds of GBs to TBs of model size. In RecSys, the so-called embedding layers account for the majority of memory usage so current systems employ a hybrid CPU-GPU design to have the large CPU memory store the memory hungry embedding layers. Unfortunately, training embeddings involve several memory bandwidth intensive operations which is at odds with the slow CPU memory, causing performance overheads. Prior work proposed to cache frequently accessed embeddings inside GPU memory as means to filter down the embedding layer traffic to CPU memory, but this paper observes several limitations with such cache design. In this work, we present a fundamentally different approach in designing embedding caches for RecSys. Our proposed ScratchPipe architecture utilizes unique properties of RecSys training to develop an embedding cache that not only sees the past but also the "future" cache accesses. ScratchPipe exploits such property to guarantee that the active working set of embedding layers can "always" be captured inside our proposed cache design, enabling embedding layer training to be conducted at GPU memory speed.
Abstract（参考訳）: パーソナライズドレコメンデーションモデル(recsys)は、ハイパースケーラによって提供される最もポピュラーな機械学習ワークロードの1つである。 RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。 RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。残念なことに、トレーニングの埋め込みには、遅いCPUメモリに反するメモリ帯域幅の集中的な操作がいくつか含まれており、パフォーマンス上のオーバーヘッドが発生している。本稿では,GPUメモリ内に頻繁にアクセスされる埋め込み層を,CPUメモリへの埋め込み層トラフィックをフィルタする手法としてキャッシュすることを提案する。本研究では,RecSysの埋め込みキャッシュ設計において,基本的に異なるアプローチを提案する。提案するscratchpipeアーキテクチャは,recsysトレーニングのユニークな特性を利用して,過去だけでなく"将来の"キャッシュアクセスも参照可能な埋め込みキャッシュを開発する。 scratchpipeではこのような特性を利用して,提案するキャッシュ設計内で,組込みレイヤのアクティブなワーキングセットを"常に"キャプチャできることを保証することで,組込みレイヤのトレーニングをgpuメモリ速度で実行可能にする。

関連論文リスト

CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。 CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文参考訳（メタデータ） (2025-03-16T12:49:44Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。 KV-Cacheフレームワークは時間と空間の複雑さを妥協する。既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文参考訳（メタデータ） (2024-12-08T11:32:08Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
A Method for Building Large Language Models with Predefined KV Cache Capacity [11.710667043543545]
本稿では、無限コンテキストを扱う場合の従来のKVキャッシュにおける過大なメモリ消費の問題に対処するために、固定長のKVキャッシュを導入する。キー値ベクトル列を動的に更新することにより、限られたキャッシュ容量内で効率的な推論を実現する。実験の結果,提案手法は推論品質を維持しながらメモリ使用量を大幅に削減することがわかった。
論文参考訳（メタデータ） (2024-11-24T11:30:00Z)
InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
ProMoE: Fast MoE-based LLM Serving using Proactive Caching [4.4026892123375605]
本稿では,プロアクティブキャッシュシステムProMoEについて紹介する。 ProMoEはプリフィルおよびデコード段階で平均2.20倍(最大3.21倍)と2.07倍(最大5.02倍)のスピードアップを達成する。
論文参考訳（メタデータ） (2024-10-29T15:31:27Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文参考訳（メタデータ） (2022-05-08T02:24:43Z)
CNN with large memory layers [2.368995563245609]
この作業は、最近提案された製品キーメモリ構造であるcitelarge_Memoryを中心に、多くのコンピュータビジョンアプリケーションに実装されている。メモリ構造は、ほぼすべてのニューラルネットワークアーキテクチャに拡張されるのに適した単純な計算プリミティブと見なすことができる。
論文参考訳（メタデータ） (2021-01-27T20:58:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。