Fugu-MT 論文翻訳(概要): Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for Personalized Recommendations

論文の概要: Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for Personalized Recommendations

arxiv url: http://arxiv.org/abs/2005.05968v1
Date: Tue, 12 May 2020 07:53:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 19:59:41.126523
Title: Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for Personalized Recommendations
Title（参考訳）: Centaur: パーソナライズされたレコメンデーションのためのチプルトベースハイブリッドスパースセンス加速器
Authors: Ranggi Hwang, Taehun Kim, Youngeun Kwon, Minsoo Rhu
Abstract要約: 本稿ではまず、パーソナライズされたレコメンデーションに関する詳細なワークロードの特徴を説明し、2つの重要なパフォーマンス制限を識別する。 Centaurはチップレットベースのハイブリッドディエンスアクセラレータで、埋め込みレイヤのメモリスループットの課題とスパースレイヤの計算制限の両方に対処します。我々は、パッケージ統合されたCPU+FPGAデバイスであるIntel HARPv2の実装と実演を行い、1.7～17.2倍の性能向上と1.7-19.5倍のエネルギー効率向上を示す。
参考スコア（独自算出の注目度）: 5.732486559142434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personalized recommendations are the backbone machine learning (ML) algorithm that powers several important application domains (e.g., ads, e-commerce, etc) serviced from cloud datacenters. Sparse embedding layers are a crucial building block in designing recommendations yet little attention has been paid in properly accelerating this important ML algorithm. This paper first provides a detailed workload characterization on personalized recommendations and identifies two significant performance limiters: memory-intensive embedding layers and compute-intensive multi-layer perceptron (MLP) layers. We then present Centaur, a chiplet-based hybrid sparse-dense accelerator that addresses both the memory throughput challenges of embedding layers and the compute limitations of MLP layers. We implement and demonstrate our proposal on an Intel HARPv2, a package-integrated CPU+FPGA device, which shows a 1.7-17.2x performance speedup and 1.7-19.5x energy-efficiency improvement than conventional approaches.
Abstract（参考訳）: パーソナライズドレコメンデーションはバックボーン機械学習(ml)アルゴリズムであり、クラウドデータセンタからサービスされるいくつかの重要なアプリケーションドメイン(広告、eコマースなど)を駆動する。スパース埋め込みレイヤはレコメンデーションを設計する上で重要なビルディングブロックであるが、この重要なMLアルゴリズムを適切に加速することにはほとんど注意が払われていない。本稿では、まず、パーソナライズドレコメンデーションに関する詳細なワークロード特性を提供し、メモリ集約型埋め込み層と計算集約型マルチレイヤ・パーセプトロン(mlp)層という2つの重要な性能制限層を特定する。次に、チップレットベースのハイブリッドスパースセンスアクセラレータであるCentaurを紹介し、埋め込み層のメモリスループット問題とMLP層の計算制限の両方に対処する。我々は,パッケージ統合CPU+FPGAデバイスであるIntel HARPv2の実装と実演を行い,従来の手法よりも1.7～17.2倍の性能向上と1.7-19.5倍のエネルギー効率向上を示す。

関連論文リスト

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文参考訳（メタデータ） (2025-07-13T12:33:37Z)
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文参考訳（メタデータ） (2025-05-09T04:17:05Z)
Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity [32.668409666483626]
既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
論文参考訳（メタデータ） (2025-03-14T08:05:49Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。我々は,AIアクセラレータのオンチップキャッシュにオフチップメモリからモデルウェイトとKVキャッシュをプリセットする新しいフレームワークであるPreSERVEを提案する。
論文参考訳（メタデータ） (2025-01-14T15:14:10Z)
COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-12T11:31:25Z)
MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文参考訳（メタデータ） (2024-11-20T19:44:26Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。 The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文参考訳（メタデータ） (2024-03-22T14:20:34Z)
EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文参考訳（メタデータ） (2023-11-12T17:56:39Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
DRAGON: Decentralized Fault Tolerance in Edge Federations [13.864161788250856]
我々は、新しいメモリ効率のディープラーニングベースモデル、すなわち生成最適化ネットワーク(GON)を提案する。 GONは入力とサンプルを区別するために単一のネットワークを使用し、メモリフットプリントを大幅に削減する。本稿では,エッジフェデレーションの性能を迅速に予測し,最適化するためにシミュレーションを実行するDRAGONと呼ばれる分散型フォールトトレランス手法を提案する。
論文参考訳（メタデータ） (2022-08-16T10:40:28Z)
Heterogeneous Data-Centric Architectures for Modern Data-Intensive Applications: Case Studies in Machine Learning and Databases [9.927754948343326]
Processing-in-Memory(PIM)は、現代のアプリケーションにおけるデータ移動のボトルネックを軽減する、有望な実行パラダイムである。本稿では,2つの現代的なデータ集約型アプリケーションに対して,PIMパラダイムの活用方法を示す。
論文参考訳（メタデータ） (2022-05-29T13:43:17Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文参考訳（メタデータ） (2021-07-13T22:23:40Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
Tensor Casting: Co-Designing Algorithm-Architecture for Personalized Recommendation Training [1.5011098158866707]
本稿では,組込み層をトレーニングする上で重要なすべてのプリミティブを包含する,集合散乱のための汎用的な加速器アーキテクチャを提案する。実際のCPU-GPUシステムのプロトタイプでは、Castingは最先端のアプローチに比べてトレーニングスループットが1.9-21倍改善されている。
論文参考訳（メタデータ） (2020-10-25T12:04:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。