Fugu-MT 論文翻訳(概要): HEAM : Hashed Embedding Acceleration using Processing-In-Memory

論文の概要: HEAM : Hashed Embedding Acceleration using Processing-In-Memory

arxiv url: http://arxiv.org/abs/2402.04032v3
Date: Thu, 14 Mar 2024 09:29:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 01:42:38.582453
Title: HEAM : Hashed Embedding Acceleration using Processing-In-Memory
Title（参考訳）: HEAM : Processing-In-Memory を用いたHash Embedding Acceleration
Authors: Youngsuk Kim, Hyuk-Jae Lee, Chae Eun Rhee,
Abstract要約: 今日のデータセンターでは、パーソナライズされたレコメンデーションシステムは、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。これまでのアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処するために3DスタックDRAMを導入していた。本稿では、3DスタックDRAMとDIMMを統合してレコメンデーションシステムを高速化するヘテロジニアスメモリアーキテクチャであるHEAMを紹介する。
参考スコア（独自算出の注目度）: 17.66751227197112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In today's data centers, personalized recommendation systems face challenges such as the need for large memory capacity and high bandwidth, especially when performing embedding operations. Previous approaches have relied on DIMM-based near-memory processing techniques or introduced 3D-stacked DRAM to address memory-bound issues and expand memory bandwidth. However, these solutions fall short when dealing with the expanding size of personalized recommendation systems. Recommendation models have grown to sizes exceeding tens of terabytes, making them challenging to run efficiently on traditional single-node inference servers. Although various algorithmic methods have been proposed to reduce embedding table capacity, they often result in increased memory access or inefficient utilization of memory resources. This paper introduces HEAM, a heterogeneous memory architecture that integrates 3D-stacked DRAM with DIMM to accelerate recommendation systems in which compositional embedding is utilized-a technique aimed at reducing the size of embedding tables. The architecture is organized into a three-tier memory hierarchy consisting of conventional DIMM, 3D-stacked DRAM with a base die-level Processing-In-Memory (PIM), and a bank group-level PIM incorporating lookup tables. This setup is specifically designed to accommodate the unique aspects of compositional embedding, such as temporal locality and embedding table capacity. This design effectively reduces bank access, improves access efficiency, and enhances overall throughput, resulting in a 6.3 times speedup and 58.9% energy savings compared to the baseline.
Abstract（参考訳）: 今日のデータセンターでは、特に埋め込み操作を行う場合、パーソナライズされたレコメンデーションシステムは、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。従来のアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処し、メモリ帯域幅を拡大する3DスタックDRAMが導入されていた。しかし、パーソナライズされたレコメンデーションシステムの規模が大きくなると、これらのソリューションは不足する。レコメンデーションモデルは数十テラバイトを超えるサイズに成長し、従来の単一ノードの推論サーバで効率的に動作させることが困難になっている。組込みテーブルの容量を削減するために様々なアルゴリズムが提案されているが、メモリアクセスの増加やメモリ資源の非効率利用につながることが多い。本稿では,3次元スタックDRAMとDIMMを統合したヘテロジニアスメモリアーキテクチャであるHEAMについて紹介する。アーキテクチャは、従来のDIMM、ベースダイレベルのProcessing-In-Memory(PIM)を備えた3次元スタックDRAM、ルックアップテーブルを備えたバンクグループレベルのPIMで構成される3層メモリ階層で構成されている。このセットアップは、時間的局所性や埋め込みテーブル容量など、構成的な埋め込みのユニークな側面に対応するように設計されている。この設計は銀行へのアクセスを効果的に減らし、アクセス効率を改善し、全体のスループットを向上し、ベースラインに比べて6.3倍のスピードアップと58.9%の省エネを実現している。

関連論文リスト

P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats [10.43214279354138]
P3-LLMは、ハイブリッド数値形式を用いた推論のための新しい統合アクセラレータである。 P3-LLMはKV-cache量子化とウェイトアクティベーション量子化の両方の観点から最先端の精度を達成する。
論文参考訳（メタデータ） (2025-11-10T08:29:34Z)
HH-PIM: Dynamic Optimization of Power and Performance with Heterogeneous-Hybrid PIM for Edge AI Devices [1.8749305679160366]
本研究では,高性能なMRAM-SRAM PIMモジュールと低消費電力なMRAM-SRAM PIMモジュールからなるHH-PIMアーキテクチャを提案する。提案したHH-PIMは,アプリケーション要件を満たしつつ,従来のPIMよりも最大60.43ドルの省エネを達成できることを示す。
論文参考訳（メタデータ） (2025-04-02T08:22:32Z)
Enabling Low-Cost Secure Computing on Untrusted In-Memory Architectures [5.565715369147691]
Processing-in-Memory(PIM)は、処理をデータに近づけることで、パフォーマンスを大幅に向上させる。暗号化されていないデータは、PIMにオフチップを移動させ、攻撃者にデータを公開し、信頼されたコンピューティングベース(TCB)上の仮定を破る。本論文では,マルチパーティ計算(MPC)技術,特に算術秘密共有とYaoのガーブロード回路を用いて,帯域幅集約計算をPIMに安全にアウトソースする。
論文参考訳（メタデータ） (2025-01-28T20:48:14Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T11:53:21Z)
CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。 CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文参考訳（メタデータ） (2024-01-15T13:35:21Z)
EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文参考訳（メタデータ） (2023-11-12T17:56:39Z)
SimplePIM: A Software Framework for Productive and Efficient Processing-in-Memory [8.844860045305772]
PIM(Processing-in-Memory)パラダイムは、メモリチップ内で計算を実行することで、このボトルネックを軽減することを目的としている。本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。 We implement SimplePIM for the UPMEM PIM system and evaluation it on six major application。
論文参考訳（メタデータ） (2023-10-03T08:59:39Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Minimizing Age of Information for Mobile Edge Computing Systems: A Nested Index Approach [11.998034941401814]
モバイルエッジ計算(MEC)は、情報更新性に敏感なリアルタイムアプリケーションを実現するための効率的なアプローチを提供する。本稿では,MECシステム内の異種エッジサーバにタスクをオフロードする複数のユーザについて検討する。我々のアルゴリズムは、ベンチマークと比較して最大40%の最適性ギャップの削減につながる。
論文参考訳（メタデータ） (2023-07-03T21:47:21Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文参考訳（メタデータ） (2021-10-20T02:48:27Z)
Continual Learning Approach for Improving the Data and Computation Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。 AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文参考訳（メタデータ） (2021-04-28T09:50:35Z)
Covert Model Poisoning Against Federated Learning: Algorithm Design and Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T03:28:18Z)
Reinforcement Learning Based Cooperative Coded Caching under Dynamic Popularities in Ultra-Dense Networks [38.44125997148742]
小規模基地局(SBS)のキャッシュ戦略は、膨大なデータレート要求を満たすために重要である。我々は、強化学習(RL)を利用して、最大距離分離可能(MDS)符号化による協調的なキャッシュ戦略を設計する。
論文参考訳（メタデータ） (2020-03-08T10:45:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。