Fugu-MT 論文翻訳(概要): RecSSD: Near Data Processing for Solid State Drive Based Recommendation Inference

論文の概要: RecSSD: Near Data Processing for Solid State Drive Based Recommendation Inference

arxiv url: http://arxiv.org/abs/2102.00075v1
Date: Fri, 29 Jan 2021 21:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-06 11:00:30.280047
Title: RecSSD: Near Data Processing for Solid State Drive Based Recommendation Inference
Title（参考訳）: RecSSD: ソリッドステートドライブに基づく推奨推論のためのニアデータ処理
Authors: Mark Wilkening, Udit Gupta, Samuel Hsia, Caroline Trippel, Carole-Jean Wu, David Brooks, Gu-Yeon Wei
Abstract要約: RecSSDは、ニューラルレコメンデーション用にカスタマイズされた近接データ処理ベースのSSDメモリシステムです。エンドツーエンドモデル推論のレイテンシを8つの業界標準モデルでcotsを使用する場合と比較して2倍削減する。
参考スコア（独自算出の注目度）: 7.3762607002135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural personalized recommendation models are used across a wide variety of datacenter applications including search, social media, and entertainment. State-of-the-art models comprise large embedding tables that have billions of parameters requiring large memory capacities. Unfortunately, large and fast DRAM-based memories levy high infrastructure costs. Conventional SSD-based storage solutions offer an order of magnitude larger capacity, but have worse read latency and bandwidth, degrading inference performance. RecSSD is a near data processing based SSD memory system customized for neural recommendation inference that reduces end-to-end model inference latency by 2X compared to using COTS SSDs across eight industry-representative models.
Abstract（参考訳）: ニューラルネットワークによるパーソナライズドレコメンデーションモデルは、検索、ソーシャルメディア、エンターテイメントなど、さまざまなデータセンタアプリケーションで使用されている。最先端モデルは、膨大なメモリ容量を必要とする数十億のパラメータを持つ大規模な埋め込みテーブルで構成されている。残念ながら、大規模かつ高速なDRAMベースのメモリは、高いインフラストラクチャコストを伴います。従来のSSDベースのストレージソリューションは、桁違いの容量を提供するが、読み込み遅延と帯域幅が悪く、推論性能が低下する。 RecSSDは、ニューラルレコメンデーション推論用にカスタマイズされた、ニアデータ処理ベースのSSDメモリシステムである。

関連論文リスト

SCRec: A Scalable Computational Storage System with Statistical Sharding and Tensor-train Decomposition for Recommendation Models [17.602518628415776]
Deep Learning Recommendation Models (DLRMs)は、ソーシャルネットワークやビデオストリーミングといったWebアプリケーション間でパーソナライズされたコンテンツを配信する上で、重要な役割を果たす。性能の改善により、DLRMsのパラメータサイズはテラバイト(TB)に拡大し、メモリ帯域幅の要求はTB/sを超えるようになった。 TBスケールの産業用DLRMを扱えるスケーラブルな計算ストレージレコメンデーションシステムであるSCRecを提案する。
論文参考訳（メタデータ） (2025-04-01T08:12:45Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation [58.194356020695906]
広告推薦はオンライン広告システムの顕著なサービスであり、積極的に研究されている。近年の研究では、レコメンデーションモデルのスケールアップと高度な設計が、大幅な性能向上をもたらすことが示されている。しかし、モデルスケールが大きくなるにつれて、従来の研究は産業規模での2つの基本的な課題を無視することが多いため、産業とのギャップが著しく増大する。
論文参考訳（メタデータ） (2025-02-20T22:35:52Z)
Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation [55.77835198580209]
連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル (LLMs) は様々なアプリケーションで広く使われているが、その相当な計算要求は大きな課題を生んでいる。モデル重みに対するメモリリードとKVキャッシュを重畳してLLM推論を最適化する新しいプレフェッチフレームワークであるPreSERVEについて述べる。
論文参考訳（メタデータ） (2025-01-14T15:14:10Z)
An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文参考訳（メタデータ） (2024-09-13T17:45:53Z)
InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。 InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。 InstInferがロングシーケンス推論のためのスループットを改善
論文参考訳（メタデータ） (2024-09-08T06:06:44Z)
Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文参考訳（メタデータ） (2024-08-20T09:42:17Z)
Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文参考訳（メタデータ） (2024-06-29T02:40:28Z)
UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。 UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文参考訳（メタデータ） (2024-06-20T02:20:21Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。 i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文参考訳（メタデータ） (2021-02-15T18:19:07Z)
SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。 SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文参考訳（メタデータ） (2021-01-04T18:54:07Z)
Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文参考訳（メタデータ） (2020-11-04T00:51:40Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。