論文の概要: MicroRec: Efficient Recommendation Inference by Hardware and Data
Structure Solutions
- arxiv url: http://arxiv.org/abs/2010.05894v2
- Date: Fri, 19 Feb 2021 10:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:23:18.844877
- Title: MicroRec: Efficient Recommendation Inference by Hardware and Data
Structure Solutions
- Title(参考訳): MicroRec: ハードウェアとデータ構造ソリューションによる効率的な推奨推論
- Authors: Wenqi Jiang, Zhenhao He, Shuai Zhang, Thomas B. Preu{\ss}er, Kai Zeng,
Liang Feng, Jiansong Zhang, Tongxuan Liu, Yong Li, Jingren Zhou, Ce Zhang,
Gustavo Alonso
- Abstract要約: 推薦システムのための高性能推論エンジンであるMicroRecを提案する。
最適化されたCPUベースラインと比較して、MicroRecは組み込みルックアップだけで13.814.7倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 43.19941489893804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are widely used in personalized recommendation systems.
Unlike regular DNN inference workloads, recommendation inference is
memory-bound due to the many random memory accesses needed to lookup the
embedding tables. The inference is also heavily constrained in terms of latency
because producing a recommendation for a user must be done in about tens of
milliseconds. In this paper, we propose MicroRec, a high-performance inference
engine for recommendation systems. MicroRec accelerates recommendation
inference by (1) redesigning the data structures involved in the embeddings to
reduce the number of lookups needed and (2) taking advantage of the
availability of High-Bandwidth Memory (HBM) in FPGA accelerators to tackle the
latency by enabling parallel lookups. We have implemented the resulting design
on an FPGA board including the embedding lookup step as well as the complete
inference process. Compared to the optimized CPU baseline (16 vCPU,
AVX2-enabled), MicroRec achieves 13.8~14.7x speedup on embedding lookup alone
and 2.5$~5.4x speedup for the entire recommendation inference in terms of
throughput. As for latency, CPU-based engines needs milliseconds for inferring
a recommendation while MicroRec only takes microseconds, a significant
advantage in real-time recommendation systems.
- Abstract(参考訳): ディープニューラルネットワークはパーソナライズドレコメンデーションシステムで広く使われている。
通常のDNN推論ワークロードとは異なり、埋め込みテーブルを探すのに必要な多くのランダムメモリアクセスのため、レコメンデーション推論はメモリバウンドである。
ユーザのレコメンデーションを生成するには、約数ミリ秒で実行する必要があるため、この推論はレイテンシの観点からも大きな制約がある。
本稿では,レコメンデーションシステムのための高性能推論エンジンであるMicroRecを提案する。
MicroRecは、(1)埋め込みに関わるデータ構造を再設計し、必要なルックアップ数を削減し、(2)FPGAアクセラレータで高帯域メモリ(HBM)の可用性を活用して、並列ルックアップを可能にすることで遅延に対処することで、推奨推論を加速する。
我々は、完全な推論プロセスと同様に埋め込みルックアップステップを含むfpgaボードに結果の設計を実装した。
最適化されたCPUベースライン(16 vCPU、AVX2対応)と比較して、MicroRecは組み込みルックアップだけで13.8~14.7倍のスピードアップを達成し、スループットの観点からは推奨推論全体の2.5$~5.4倍のスピードアップを達成した。
レイテンシに関しては、CPUベースのエンジンはレコメンデーションを推測するためにミリ秒を必要とし、MicroRecはマイクロ秒しかかからない。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Empowering SMPC: Bridging the Gap Between Scalability, Memory Efficiency
and Privacy in Neural Network Inference [5.09598865497036]
我々は、中程度の計算資源を持つマシン上でSMPCのためのABY2.0プロトコルを実装した。
この記事では、セキュアなニューラルネットワーク推論のためのC++ベースのMOTION2NXフレームワークの限界に対処する。
論文 参考訳(メタデータ) (2023-10-16T07:16:09Z) - GPU-based Private Information Retrieval for On-Device Machine Learning
Inference [22.340827096549297]
オンデバイス機械学習(ML)推論は、リモートサーバに公開することなく、ユーザデバイス上でプライベートなユーザデータを使用可能にする。
本研究では,プライベート情報を共有することなく,サーバからの埋め込みを効率的に,かつプライベートに検索するためのプライベート情報検索(PIR)を提案する。
当社のシステムは単一のV100 GPU上で,毎秒最大100,000ドルのクエリを処理可能です -- CPUベースのベースラインよりも100倍のスループット向上を実現しています。
論文 参考訳(メタデータ) (2023-01-26T02:24:01Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Predicting Memory Compiler Performance Outputs using Feed-Forward Neural
Networks [2.1094836466667606]
チップの設計フローにおける重要なタスクは、最適なメモリコンパイラのパラメトリゼーションを見つけることである。
本稿では,メモリコンパイラがパラメータ化した場合の出力を予測するために,完全に接続されたフィードフォワードニューラルネットワークを提案する。
網羅的な検索ベースのフレームワークを使用して、チップ設計者が要求を指定してから数秒以内に、PPA最適化パラメトリゼーションが見つかる。
論文 参考訳(メタデータ) (2020-03-05T13:11:47Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。