論文の概要: HH-PIM: Dynamic Optimization of Power and Performance with Heterogeneous-Hybrid PIM for Edge AI Devices
- arxiv url: http://arxiv.org/abs/2504.01468v1
- Date: Wed, 02 Apr 2025 08:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:51.389921
- Title: HH-PIM: Dynamic Optimization of Power and Performance with Heterogeneous-Hybrid PIM for Edge AI Devices
- Title(参考訳): HH-PIM:エッジAIデバイスのための異種ハイブリッドPIMによる電力・性能の動的最適化
- Authors: Sangmin Jeon, Kangju Lee, Kyeongwon Lee, Woojoo Lee,
- Abstract要約: 本研究では,高性能なMRAM-SRAM PIMモジュールと低消費電力なMRAM-SRAM PIMモジュールからなるHH-PIMアーキテクチャを提案する。
提案したHH-PIMは,アプリケーション要件を満たしつつ,従来のPIMよりも最大60.43ドルの省エネを達成できることを示す。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License:
- Abstract: Processing-in-Memory (PIM) architectures offer promising solutions for efficiently handling AI applications in energy-constrained edge environments. While traditional PIM designs enhance performance and energy efficiency by reducing data movement between memory and processing units, they are limited in edge devices due to continuous power demands and the storage requirements of large neural network weights in SRAM and DRAM. Hybrid PIM architectures, incorporating non-volatile memories like MRAM and ReRAM, mitigate these limitations but struggle with a mismatch between fixed computing resources and dynamically changing inference workloads. To address these challenges, this study introduces a Heterogeneous-Hybrid PIM (HH-PIM) architecture, comprising high-performance MRAM-SRAM PIM modules and low-power MRAM-SRAM PIM modules. We further propose a data placement optimization algorithm that dynamically allocates data based on computational demand, maximizing energy efficiency. FPGA prototyping and power simulations with processors featuring HH-PIM and other PIM types demonstrate that the proposed HH-PIM achieves up to $60.43$ percent average energy savings over conventional PIMs while meeting application latency requirements. These results confirm the suitability of HH-PIM for adaptive, energy-efficient AI processing in edge devices.
- Abstract(参考訳): Processing-in-Memory(PIM)アーキテクチャは、エネルギー制約のあるエッジ環境でAIアプリケーションを効率的に処理するための有望なソリューションを提供する。
従来のPIM設計は、メモリと処理ユニット間のデータ移動を減らすことで、性能とエネルギー効率を向上させるが、連続的な電力需要とSRAMとDRAMにおける大きなニューラルネットワーク重みのストレージ要求により、エッジデバイスでは制限されている。
MRAMやReRAMのような不揮発性メモリを取り入れたハイブリッドPIMアーキテクチャは、これらの制限を緩和するが、固定されたコンピューティングリソースと動的に変化する推論ワークロード間のミスマッチに苦労する。
これらの課題に対処するために,高性能MRAM-SRAM PIMモジュールと低消費電力MRAM-SRAM PIMモジュールからなるヘテロジニアス・ハイブリッドPIM(HH-PIM)アーキテクチャを提案する。
さらに、計算要求に基づいてデータを動的に割り当て、エネルギー効率を最大化するデータ配置最適化アルゴリズムを提案する。
HH-PIMや他のPIMタイプのプロセッサを用いたFPGAプロトタイピングと電力シミュレーションにより、提案されたHH-PIMは、アプリケーション遅延要件を満たしながら従来のPIMよりも60.43ドルの平均的な省エネを達成できることを示した。
これらの結果は、エッジデバイスにおける適応的でエネルギー効率の良いAI処理におけるHH-PIMの適合性を確認した。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System [6.21613161960432]
大規模言語モデル(LLM)は数万のトークンのシーケンスを処理する。
Processing-in-Memory (PIM) は、計算をデータに移動させることでメモリ帯域幅を最大化する。
LoL-PIM はマルチノード PIM アーキテクチャであり、ハードウェアとソフトウェアの共同設計により長期のコンテキスト LLM を高速化する。
論文 参考訳(メタデータ) (2024-12-28T14:38:16Z) - PIM-AI: A Novel Architecture for High-Efficiency LLM Inference [0.4746684680917117]
本稿では,大規模言語モデル推論用に設計された新しいDDR5/LPDDR5 PIMアーキテクチャであるPIM-AIを紹介する。
クラウドベースのシナリオでは、PIM-AIはクエリ毎秒あたりの3年間のTCOを最大6.94倍削減する。
モバイルシナリオでは、PIM-AIは最先端のモバイルSOCと比較してトークン当たりのエネルギーを10倍から20倍に削減する。
論文 参考訳(メタデータ) (2024-11-26T10:54:19Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Sustainable AI Processing at the Edge [10.240738732324186]
本稿では、推論とオンライントレーニングの両方のための畳み込みニューラルネットワークアクセラレーションエンジンのトレードオフについて検討する。
特に、PIM(Process-in-Memory)アプローチ、モバイルGPUアクセラレータ、最近リリースされたFPGAの利用について検討する。
論文 参考訳(メタデータ) (2022-07-04T05:32:12Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。