論文の概要: SCRec: A Scalable Computational Storage System with Statistical Sharding and Tensor-train Decomposition for Recommendation Models
- arxiv url: http://arxiv.org/abs/2504.00520v1
- Date: Tue, 01 Apr 2025 08:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:18:33.956709
- Title: SCRec: A Scalable Computational Storage System with Statistical Sharding and Tensor-train Decomposition for Recommendation Models
- Title(参考訳): SCRec:レコメンデーションモデルのための統計的シャーディングとテンソルトレイン分解によるスケーラブルな計算ストレージシステム
- Authors: Jinho Yang, Ji-Hoon Kim, Joo-Young Kim,
- Abstract要約: Deep Learning Recommendation Models (DLRMs)は、ソーシャルネットワークやビデオストリーミングといったWebアプリケーション間でパーソナライズされたコンテンツを配信する上で、重要な役割を果たす。
性能の改善により、DLRMsのパラメータサイズはテラバイト(TB)に拡大し、メモリ帯域幅の要求はTB/sを超えるようになった。
TBスケールの産業用DLRMを扱えるスケーラブルな計算ストレージレコメンデーションシステムであるSCRecを提案する。
- 参考スコア(独自算出の注目度): 17.602518628415776
- License:
- Abstract: Deep Learning Recommendation Models (DLRMs) play a crucial role in delivering personalized content across web applications such as social networking and video streaming. However, with improvements in performance, the parameter size of DLRMs has grown to terabyte (TB) scales, accompanied by memory bandwidth demands exceeding TB/s levels. Furthermore, the workload intensity within the model varies based on the target mechanism, making it difficult to build an optimized recommendation system. In this paper, we propose SCRec, a scalable computational storage recommendation system that can handle TB-scale industrial DLRMs while guaranteeing high bandwidth requirements. SCRec utilizes a software framework that features a mixed-integer programming (MIP)-based cost model, efficiently fetching data based on data access patterns and adaptively configuring memory-centric and compute-centric cores. Additionally, SCRec integrates hardware acceleration cores to enhance DLRM computations, particularly allowing for the high-performance reconstruction of approximated embedding vectors from extremely compressed tensor-train (TT) format. By combining its software framework and hardware accelerators, while eliminating data communication overhead by being implemented on a single server, SCRec achieves substantial improvements in DLRM inference performance. It delivers up to 55.77$\times$ speedup compared to a CPU-DRAM system with no loss in accuracy and up to 13.35$\times$ energy efficiency gains over a multi-GPU system.
- Abstract(参考訳): Deep Learning Recommendation Models (DLRMs)は、ソーシャルネットワークやビデオストリーミングといったWebアプリケーション間でパーソナライズされたコンテンツを配信する上で、重要な役割を果たす。
しかし、性能の向上に伴い、DLRMsのパラメータサイズはテラバイト(TB)に拡大し、メモリ帯域幅の要求はTB/sを超えるようになった。
さらに、モデル内のワークロードの強度は、ターゲットメカニズムによって異なり、最適化されたレコメンデーションシステムの構築が困難になる。
本稿では,TBスケールの産業用DLRMを高帯域幅で扱えるスケーラブルな計算ストレージレコメンデーションシステムであるSCRecを提案する。
SCRecは、混合整数プログラミング(MIP)ベースのコストモデルを備え、データアクセスパターンに基づいてデータを効率的にフェッチし、メモリ中心のコアと計算中心のコアを適応的に設定するソフトウェアフレームワークを利用している。
さらに、SCRecはハードウェアアクセラレーションコアを統合してDLRM計算を強化し、特に極端に圧縮されたテンソルトレイン(TT)フォーマットから近似埋め込みベクトルを高速に再構築することができる。
ソフトウェアフレームワークとハードウェアアクセラレータを組み合わせることで、単一のサーバに実装することでデータ通信のオーバーヘッドをなくし、SCRecはDLRM推論性能を大幅に改善する。
CPU-DRAMシステムと比較して最大55.77$\times$スピードアップでき、精度は失われず、マルチGPUシステムでは最大13.35$\times$エネルギ効率が向上する。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
論文 参考訳(メタデータ) (2024-09-08T06:06:44Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。