論文の概要: RecSSD: Near Data Processing for Solid State Drive Based Recommendation
Inference
- arxiv url: http://arxiv.org/abs/2102.00075v1
- Date: Fri, 29 Jan 2021 21:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 11:00:30.280047
- Title: RecSSD: Near Data Processing for Solid State Drive Based Recommendation
Inference
- Title(参考訳): RecSSD: ソリッドステートドライブに基づく推奨推論のためのニアデータ処理
- Authors: Mark Wilkening, Udit Gupta, Samuel Hsia, Caroline Trippel, Carole-Jean
Wu, David Brooks, Gu-Yeon Wei
- Abstract要約: RecSSDは、ニューラルレコメンデーション用にカスタマイズされた近接データ処理ベースのSSDメモリシステムです。
エンドツーエンドモデル推論のレイテンシを8つの業界標準モデルでcotsを使用する場合と比較して2倍削減する。
- 参考スコア(独自算出の注目度): 7.3762607002135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural personalized recommendation models are used across a wide variety of
datacenter applications including search, social media, and entertainment.
State-of-the-art models comprise large embedding tables that have billions of
parameters requiring large memory capacities. Unfortunately, large and fast
DRAM-based memories levy high infrastructure costs. Conventional SSD-based
storage solutions offer an order of magnitude larger capacity, but have worse
read latency and bandwidth, degrading inference performance. RecSSD is a near
data processing based SSD memory system customized for neural recommendation
inference that reduces end-to-end model inference latency by 2X compared to
using COTS SSDs across eight industry-representative models.
- Abstract(参考訳): ニューラルネットワークによるパーソナライズドレコメンデーションモデルは、検索、ソーシャルメディア、エンターテイメントなど、さまざまなデータセンタアプリケーションで使用されている。
最先端モデルは、膨大なメモリ容量を必要とする数十億のパラメータを持つ大規模な埋め込みテーブルで構成されている。
残念ながら、大規模かつ高速なDRAMベースのメモリは、高いインフラストラクチャコストを伴います。
従来のSSDベースのストレージソリューションは、桁違いの容量を提供するが、読み込み遅延と帯域幅が悪く、推論性能が低下する。
RecSSDは、ニューラルレコメンデーション推論用にカスタマイズされた、ニアデータ処理ベースのSSDメモリシステムである。
関連論文リスト
- An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
論文 参考訳(メタデータ) (2024-09-08T06:06:44Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文 参考訳(メタデータ) (2020-11-04T00:51:40Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。