論文の概要: MicroRec: Efficient Recommendation Inference by Hardware and Data
Structure Solutions
- arxiv url: http://arxiv.org/abs/2010.05894v2
- Date: Fri, 19 Feb 2021 10:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:23:18.844877
- Title: MicroRec: Efficient Recommendation Inference by Hardware and Data
Structure Solutions
- Title(参考訳): MicroRec: ハードウェアとデータ構造ソリューションによる効率的な推奨推論
- Authors: Wenqi Jiang, Zhenhao He, Shuai Zhang, Thomas B. Preu{\ss}er, Kai Zeng,
Liang Feng, Jiansong Zhang, Tongxuan Liu, Yong Li, Jingren Zhou, Ce Zhang,
Gustavo Alonso
- Abstract要約: 推薦システムのための高性能推論エンジンであるMicroRecを提案する。
最適化されたCPUベースラインと比較して、MicroRecは組み込みルックアップだけで13.814.7倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 43.19941489893804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are widely used in personalized recommendation systems.
Unlike regular DNN inference workloads, recommendation inference is
memory-bound due to the many random memory accesses needed to lookup the
embedding tables. The inference is also heavily constrained in terms of latency
because producing a recommendation for a user must be done in about tens of
milliseconds. In this paper, we propose MicroRec, a high-performance inference
engine for recommendation systems. MicroRec accelerates recommendation
inference by (1) redesigning the data structures involved in the embeddings to
reduce the number of lookups needed and (2) taking advantage of the
availability of High-Bandwidth Memory (HBM) in FPGA accelerators to tackle the
latency by enabling parallel lookups. We have implemented the resulting design
on an FPGA board including the embedding lookup step as well as the complete
inference process. Compared to the optimized CPU baseline (16 vCPU,
AVX2-enabled), MicroRec achieves 13.8~14.7x speedup on embedding lookup alone
and 2.5$~5.4x speedup for the entire recommendation inference in terms of
throughput. As for latency, CPU-based engines needs milliseconds for inferring
a recommendation while MicroRec only takes microseconds, a significant
advantage in real-time recommendation systems.
- Abstract(参考訳): ディープニューラルネットワークはパーソナライズドレコメンデーションシステムで広く使われている。
通常のDNN推論ワークロードとは異なり、埋め込みテーブルを探すのに必要な多くのランダムメモリアクセスのため、レコメンデーション推論はメモリバウンドである。
ユーザのレコメンデーションを生成するには、約数ミリ秒で実行する必要があるため、この推論はレイテンシの観点からも大きな制約がある。
本稿では,レコメンデーションシステムのための高性能推論エンジンであるMicroRecを提案する。
MicroRecは、(1)埋め込みに関わるデータ構造を再設計し、必要なルックアップ数を削減し、(2)FPGAアクセラレータで高帯域メモリ(HBM)の可用性を活用して、並列ルックアップを可能にすることで遅延に対処することで、推奨推論を加速する。
我々は、完全な推論プロセスと同様に埋め込みルックアップステップを含むfpgaボードに結果の設計を実装した。
最適化されたCPUベースライン(16 vCPU、AVX2対応)と比較して、MicroRecは組み込みルックアップだけで13.8~14.7倍のスピードアップを達成し、スループットの観点からは推奨推論全体の2.5$~5.4倍のスピードアップを達成した。
レイテンシに関しては、CPUベースのエンジンはレコメンデーションを推測するためにミリ秒を必要とし、MicroRecはマイクロ秒しかかからない。
関連論文リスト
- Empowering SMPC: Bridging the Gap Between Scalability, Memory Efficiency
and Privacy in Neural Network Inference [5.09598865497036]
我々は、中程度の計算資源を持つマシン上でSMPCのためのABY2.0プロトコルを実装した。
この記事では、セキュアなニューラルネットワーク推論のためのC++ベースのMOTION2NXフレームワークの限界に対処する。
論文 参考訳(メタデータ) (2023-10-16T07:16:09Z) - GPU-based Private Information Retrieval for On-Device Machine Learning
Inference [22.340827096549297]
オンデバイス機械学習(ML)推論は、リモートサーバに公開することなく、ユーザデバイス上でプライベートなユーザデータを使用可能にする。
本研究では,プライベート情報を共有することなく,サーバからの埋め込みを効率的に,かつプライベートに検索するためのプライベート情報検索(PIR)を提案する。
当社のシステムは単一のV100 GPU上で,毎秒最大100,000ドルのクエリを処理可能です -- CPUベースのベースラインよりも100倍のスループット向上を実現しています。
論文 参考訳(メタデータ) (2023-01-26T02:24:01Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - Predicting Memory Compiler Performance Outputs using Feed-Forward Neural
Networks [2.1094836466667606]
チップの設計フローにおける重要なタスクは、最適なメモリコンパイラのパラメトリゼーションを見つけることである。
本稿では,メモリコンパイラがパラメータ化した場合の出力を予測するために,完全に接続されたフィードフォワードニューラルネットワークを提案する。
網羅的な検索ベースのフレームワークを使用して、チップ設計者が要求を指定してから数秒以内に、PPA最適化パラメトリゼーションが見つかる。
論文 参考訳(メタデータ) (2020-03-05T13:11:47Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。