論文の概要: HEAM : Hashed Embedding Acceleration using Processing-In-Memory
- arxiv url: http://arxiv.org/abs/2402.04032v1
- Date: Tue, 6 Feb 2024 14:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:29:30.600984
- Title: HEAM : Hashed Embedding Acceleration using Processing-In-Memory
- Title(参考訳): HEAM : 処理インメモリを用いたハッシュ埋め込み高速化
- Authors: Youngsuk Kim, Hyuk-Jae Lee, Chae Eun Rhee
- Abstract要約: 本稿では、3DスタックDRAMとDIMMを統合してレコメンデーションシステムを高速化するヘテロジニアスメモリアーキテクチャであるHEAMを紹介する。
アーキテクチャは、従来のDIMM、3DスタックDRAM、ベースダイレベルProcessing-In-Memory(PIM)、バンクグループレベルのPIMからなる3階層のメモリ階層で構成されている。
このセットアップは、時間的局所性や埋め込みテーブル容量など、構成的な埋め込みのユニークな側面に対応するように設計されている。
- 参考スコア(独自算出の注目度): 19.856513246242837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's data centers, personalized recommendation systems face challenges
such as the need for large memory capacity and high bandwidth, especially when
performing embedding operations. Previous approaches have relied on DIMM-based
near-memory processing techniques or introduced 3D-stacked DRAM to address
memory-bound issues and expand memory bandwidth. However, these solutions fall
short when dealing with the expanding size of personalized recommendation
systems. Recommendation models have grown to sizes exceeding tens of terabytes,
making them challenging to run efficiently on traditional single-node inference
servers. Although various algorithmic methods have been proposed to reduce
embedding table capacity, they often result in increased memory access or
inefficient utilization of memory resources. This paper introduces HEAM, a
heterogeneous memory architecture that integrates 3D-stacked DRAM with DIMM to
accelerate recommendation systems in which compositional embedding is
utilized-a technique aimed at reducing the size of embedding tables. The
architecture is organized into a three-tier memory hierarchy consisting of
conventional DIMM, 3D-stacked DRAM with a base die-level Processing-In-Memory
(PIM), and a bank group-level PIM incorporating a Look-Up-Table. This setup is
specifically designed to accommodate the unique aspects of compositional
embedding, such as temporal locality and embedding table capacity. This design
effectively reduces bank access, improves access efficiency, and enhances
overall throughput, resulting in a 6.3 times speedup and 58.9% energy savings
compared to the baseline.
- Abstract(参考訳): 今日のデータセンターでは、パーソナライズドレコメンデーションシステムが、特に組み込み操作を行う場合に、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。
従来のアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処し、メモリ帯域幅を拡大する3DスタックDRAMが導入されていた。
しかし、これらのソリューションはパーソナライズされたレコメンデーションシステムのサイズ拡大を扱う場合に不足する。
レコメンデーションモデルは数十テラバイトを超えるサイズに成長し、従来の単一ノード推論サーバ上で効率的に動作することが困難になっている。
組込みテーブルの容量を削減するために様々なアルゴリズムが提案されているが、メモリアクセスの増加やメモリ資源の非効率利用につながることが多い。
本稿では,3次元スタックDRAMとDIMMを統合したヘテロジニアスメモリアーキテクチャであるHEAMについて紹介する。
アーキテクチャは、従来のDIMM、ベースダイレベルのProcess-In-Memory(PIM)を備えた3DスタックDRAM、Look-Up-Tableを備えた銀行グループレベルのPIMで構成されている。
この設定は、時間的局所性や埋め込みテーブル容量など、構成的埋め込みのユニークな側面を満たすように特別に設計されている。
この設計は銀行アクセスを効果的に削減し、アクセス効率を向上し、全体のスループットを向上し、6.3倍の高速化と58.9%の省エネを実現している。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - A parallel evolutionary algorithm to optimize dynamic memory managers in embedded systems [4.651702738999686]
組込みシステムにおけるDMM最適化のための新しい並列進化アルゴリズムを提案する。
我々のフレームワークは、他の最先端のアプローチと比較して86.40倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2024-06-28T15:47:25Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。
AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。
本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文 参考訳(メタデータ) (2021-04-28T09:50:35Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。