論文の概要: RecSSD: Near Data Processing for Solid State Drive Based Recommendation
Inference
- arxiv url: http://arxiv.org/abs/2102.00075v1
- Date: Fri, 29 Jan 2021 21:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 11:00:30.280047
- Title: RecSSD: Near Data Processing for Solid State Drive Based Recommendation
Inference
- Title(参考訳): RecSSD: ソリッドステートドライブに基づく推奨推論のためのニアデータ処理
- Authors: Mark Wilkening, Udit Gupta, Samuel Hsia, Caroline Trippel, Carole-Jean
Wu, David Brooks, Gu-Yeon Wei
- Abstract要約: RecSSDは、ニューラルレコメンデーション用にカスタマイズされた近接データ処理ベースのSSDメモリシステムです。
エンドツーエンドモデル推論のレイテンシを8つの業界標準モデルでcotsを使用する場合と比較して2倍削減する。
- 参考スコア(独自算出の注目度): 7.3762607002135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural personalized recommendation models are used across a wide variety of
datacenter applications including search, social media, and entertainment.
State-of-the-art models comprise large embedding tables that have billions of
parameters requiring large memory capacities. Unfortunately, large and fast
DRAM-based memories levy high infrastructure costs. Conventional SSD-based
storage solutions offer an order of magnitude larger capacity, but have worse
read latency and bandwidth, degrading inference performance. RecSSD is a near
data processing based SSD memory system customized for neural recommendation
inference that reduces end-to-end model inference latency by 2X compared to
using COTS SSDs across eight industry-representative models.
- Abstract(参考訳): ニューラルネットワークによるパーソナライズドレコメンデーションモデルは、検索、ソーシャルメディア、エンターテイメントなど、さまざまなデータセンタアプリケーションで使用されている。
最先端モデルは、膨大なメモリ容量を必要とする数十億のパラメータを持つ大規模な埋め込みテーブルで構成されている。
残念ながら、大規模かつ高速なDRAMベースのメモリは、高いインフラストラクチャコストを伴います。
従来のSSDベースのストレージソリューションは、桁違いの容量を提供するが、読み込み遅延と帯域幅が悪く、推論性能が低下する。
RecSSDは、ニューラルレコメンデーション推論用にカスタマイズされた、ニアデータ処理ベースのSSDメモリシステムである。
関連論文リスト
- HEAM : Hashed Embedding Acceleration using Processing-In-Memory [17.66751227197112]
今日のデータセンターでは、パーソナライズされたレコメンデーションシステムは、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。
これまでのアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処するために3DスタックDRAMを導入していた。
本稿では、3DスタックDRAMとDIMMを統合してレコメンデーションシステムを高速化するヘテロジニアスメモリアーキテクチャであるHEAMを紹介する。
論文 参考訳(メタデータ) (2024-02-06T14:26:22Z) - LLM in a flash: Efficient Large Language Model Inference with Limited
Memory [20.515855044180295]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。
本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。
本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文 参考訳(メタデータ) (2023-12-12T18:57:08Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。
レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文 参考訳(メタデータ) (2022-06-30T18:01:08Z) - SmartSAGE: Training Large-scale Graph Neural Networks using In-Storage
Processing Architectures [0.7792020418343023]
グラフニューラルネットワーク(GNN)は、各オブジェクト(グラフノード)の表現と、異なるオブジェクト間の関係の両方を学ぶことによって、特徴を抽出することができる。
その強みにもかかわらず、これらのアルゴリズムを本番環境で利用することは、グラフノードとエッジの数が数十億から数十億の規模になるため、いくつかの課題に直面します。
本研究では,現在最先端の大規模GNN学習アルゴリズムであるGraphAGESの詳細な特徴付けを行う。
キャパシティ最適化NVMを用いたストレージの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-05-10T07:25:30Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。
分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。
さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文 参考訳(メタデータ) (2020-11-04T00:51:40Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Binarized Neural Architecture Search for Efficient Object Recognition [120.23378346337311]
バイナリ化されたニューラルネットワークサーチ(BNAS)は、エッジコンピューティング用の組み込みデバイスにおいて、膨大な計算コストを削減するために、極めて圧縮されたモデルを生成する。
9,6.53%対9,7.22%の精度はCIFAR-10データセットで達成されるが、かなり圧縮されたモデルで、最先端のPC-DARTSよりも40%速い検索が可能である。
論文 参考訳(メタデータ) (2020-09-08T15:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。