論文の概要: Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for
Personalized Recommendations
- arxiv url: http://arxiv.org/abs/2005.05968v1
- Date: Tue, 12 May 2020 07:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:59:41.126523
- Title: Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for
Personalized Recommendations
- Title(参考訳): Centaur: パーソナライズされたレコメンデーションのためのチプルトベースハイブリッドスパースセンス加速器
- Authors: Ranggi Hwang, Taehun Kim, Youngeun Kwon, Minsoo Rhu
- Abstract要約: 本稿ではまず、パーソナライズされたレコメンデーションに関する詳細なワークロードの特徴を説明し、2つの重要なパフォーマンス制限を識別する。
Centaurはチップレットベースのハイブリッドディエンスアクセラレータで、埋め込みレイヤのメモリスループットの課題とスパースレイヤの計算制限の両方に対処します。
我々は、パッケージ統合されたCPU+FPGAデバイスであるIntel HARPv2の実装と実演を行い、1.7~17.2倍の性能向上と1.7-19.5倍のエネルギー効率向上を示す。
- 参考スコア(独自算出の注目度): 5.732486559142434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized recommendations are the backbone machine learning (ML) algorithm
that powers several important application domains (e.g., ads, e-commerce, etc)
serviced from cloud datacenters. Sparse embedding layers are a crucial building
block in designing recommendations yet little attention has been paid in
properly accelerating this important ML algorithm. This paper first provides a
detailed workload characterization on personalized recommendations and
identifies two significant performance limiters: memory-intensive embedding
layers and compute-intensive multi-layer perceptron (MLP) layers. We then
present Centaur, a chiplet-based hybrid sparse-dense accelerator that addresses
both the memory throughput challenges of embedding layers and the compute
limitations of MLP layers. We implement and demonstrate our proposal on an
Intel HARPv2, a package-integrated CPU+FPGA device, which shows a 1.7-17.2x
performance speedup and 1.7-19.5x energy-efficiency improvement than
conventional approaches.
- Abstract(参考訳): パーソナライズドレコメンデーションはバックボーン機械学習(ml)アルゴリズムであり、クラウドデータセンタからサービスされるいくつかの重要なアプリケーションドメイン(広告、eコマースなど)を駆動する。
スパース埋め込みレイヤはレコメンデーションを設計する上で重要なビルディングブロックであるが、この重要なMLアルゴリズムを適切に加速することにはほとんど注意が払われていない。
本稿では、まず、パーソナライズドレコメンデーションに関する詳細なワークロード特性を提供し、メモリ集約型埋め込み層と計算集約型マルチレイヤ・パーセプトロン(mlp)層という2つの重要な性能制限層を特定する。
次に、チップレットベースのハイブリッドスパースセンスアクセラレータであるCentaurを紹介し、埋め込み層のメモリスループット問題とMLP層の計算制限の両方に対処する。
我々は,パッケージ統合CPU+FPGAデバイスであるIntel HARPv2の実装と実演を行い,従来の手法よりも1.7~17.2倍の性能向上と1.7-19.5倍のエネルギー効率向上を示す。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - DRAGON: Decentralized Fault Tolerance in Edge Federations [13.864161788250856]
我々は、新しいメモリ効率のディープラーニングベースモデル、すなわち生成最適化ネットワーク(GON)を提案する。
GONは入力とサンプルを区別するために単一のネットワークを使用し、メモリフットプリントを大幅に削減する。
本稿では,エッジフェデレーションの性能を迅速に予測し,最適化するためにシミュレーションを実行するDRAGONと呼ばれる分散型フォールトトレランス手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T10:40:28Z) - Heterogeneous Data-Centric Architectures for Modern Data-Intensive
Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。
本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文 参考訳(メタデータ) (2022-05-29T13:43:17Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Tensor Casting: Co-Designing Algorithm-Architecture for Personalized
Recommendation Training [1.5011098158866707]
本稿では,組込み層をトレーニングする上で重要なすべてのプリミティブを包含する,集合散乱のための汎用的な加速器アーキテクチャを提案する。
実際のCPU-GPUシステムのプロトタイプでは、Castingは最先端のアプローチに比べてトレーニングスループットが1.9-21倍改善されている。
論文 参考訳(メタデータ) (2020-10-25T12:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。