論文の概要: HEAM : Hashed Embedding Acceleration using Processing-In-Memory
- arxiv url: http://arxiv.org/abs/2402.04032v2
- Date: Wed, 21 Feb 2024 05:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:01:24.253438
- Title: HEAM : Hashed Embedding Acceleration using Processing-In-Memory
- Title(参考訳): HEAM : 処理インメモリを用いたハッシュ埋め込み高速化
- Authors: Youngsuk Kim, Hyuk-Jae Lee, Chae Eun Rhee
- Abstract要約: 本稿では、3DスタックDRAMとDIMMを統合してレコメンデーションシステムを高速化するヘテロジニアスメモリアーキテクチャであるHEAMを紹介する。
アーキテクチャは、従来のDIMM、3DスタックDRAM、ベースダイレベルProcessing-In-Memory(PIM)、バンクグループレベルのPIMからなる3階層のメモリ階層で構成されている。
このセットアップは、時間的局所性や埋め込みテーブル容量など、構成的な埋め込みのユニークな側面に対応するように設計されている。
- 参考スコア(独自算出の注目度): 19.856513246242837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's data centers, personalized recommendation systems face challenges
such as the need for large memory capacity and high bandwidth, especially when
performing embedding operations. Previous approaches have relied on DIMM-based
near-memory processing techniques or introduced 3D-stacked DRAM to address
memory-bound issues and expand memory bandwidth. However, these solutions fall
short when dealing with the expanding size of personalized recommendation
systems. Recommendation models have grown to sizes exceeding tens of terabytes,
making them challenging to run efficiently on traditional single-node inference
servers. Although various algorithmic methods have been proposed to reduce
embedding table capacity, they often result in increased memory access or
inefficient utilization of memory resources. This paper introduces HEAM, a
heterogeneous memory architecture that integrates 3D-stacked DRAM with DIMM to
accelerate recommendation systems in which compositional embedding is
utilized-a technique aimed at reducing the size of embedding tables. The
architecture is organized into a three-tier memory hierarchy consisting of
conventional DIMM, 3D-stacked DRAM with a base die-level Processing-In-Memory
(PIM), and a bank group-level PIM incorporating a Look-Up-Table. This setup is
specifically designed to accommodate the unique aspects of compositional
embedding, such as temporal locality and embedding table capacity. This design
effectively reduces bank access, improves access efficiency, and enhances
overall throughput, resulting in a 6.3 times speedup and 58.9% energy savings
compared to the baseline.
- Abstract(参考訳): 今日のデータセンターでは、パーソナライズドレコメンデーションシステムが、特に組み込み操作を行う場合に、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。
従来のアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処し、メモリ帯域幅を拡大する3DスタックDRAMが導入されていた。
しかし、これらのソリューションはパーソナライズされたレコメンデーションシステムのサイズ拡大を扱う場合に不足する。
レコメンデーションモデルは数十テラバイトを超えるサイズに成長し、従来の単一ノード推論サーバ上で効率的に動作することが困難になっている。
組込みテーブルの容量を削減するために様々なアルゴリズムが提案されているが、メモリアクセスの増加やメモリ資源の非効率利用につながることが多い。
本稿では,3次元スタックDRAMとDIMMを統合したヘテロジニアスメモリアーキテクチャであるHEAMについて紹介する。
アーキテクチャは、従来のDIMM、ベースダイレベルのProcess-In-Memory(PIM)を備えた3DスタックDRAM、Look-Up-Tableを備えた銀行グループレベルのPIMで構成されている。
この設定は、時間的局所性や埋め込みテーブル容量など、構成的埋め込みのユニークな側面を満たすように特別に設計されている。
この設計は銀行アクセスを効果的に削減し、アクセス効率を向上し、全体のスループットを向上し、6.3倍の高速化と58.9%の省エネを実現している。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2024-01-15T13:35:21Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - SimplePIM: A Software Framework for Productive and Efficient
Processing-in-Memory [8.844860045305772]
PIM(Processing-in-Memory)パラダイムは、メモリチップ内で計算を実行することで、このボトルネックを軽減することを目的としている。
本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。
We implement SimplePIM for the UPMEM PIM system and evaluation it on six major application。
論文 参考訳(メタデータ) (2023-10-03T08:59:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Minimizing Age of Information for Mobile Edge Computing Systems: A
Nested Index Approach [11.998034941401814]
モバイルエッジ計算(MEC)は、情報更新性に敏感なリアルタイムアプリケーションを実現するための効率的なアプローチを提供する。
本稿では,MECシステム内の異種エッジサーバにタスクをオフロードする複数のユーザについて検討する。
我々のアルゴリズムは、ベンチマークと比較して最大40%の最適性ギャップの削減につながる。
論文 参考訳(メタデータ) (2023-07-03T21:47:21Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。
AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。
本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文 参考訳(メタデータ) (2021-04-28T09:50:35Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - Reinforcement Learning Based Cooperative Coded Caching under Dynamic
Popularities in Ultra-Dense Networks [38.44125997148742]
小規模基地局(SBS)のキャッシュ戦略は、膨大なデータレート要求を満たすために重要である。
我々は、強化学習(RL)を利用して、最大距離分離可能(MDS)符号化による協調的なキャッシュ戦略を設計する。
論文 参考訳(メタデータ) (2020-03-08T10:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。