論文の概要: CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing
- arxiv url: http://arxiv.org/abs/2407.19627v1
- Date: Mon, 29 Jul 2024 01:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:25:50.059277
- Title: CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing
- Title(参考訳): CHIME:エネルギー効率の良い STT-RAM を用いた並列階層型インメモリ処理
- Authors: Dhruv Gajaria, Tosiron Adegbija, Kevin Gomez,
- Abstract要約: 本稿では、新しいPiC/PiMアーキテクチャ、Concurrent Hierarchical In-Memory Processing(CHIME)を紹介する。
CHIMEは、メモリ階層の複数のレベルにわたる不均一な計算ユニットを戦略的に組み込む。
実験の結果、最先端のビット線コンピューティングアプローチと比較して、CHIMEは57.95%と78.23%の大幅なスピードアップと省エネを実現していることがわかった。
- 参考スコア(独自算出の注目度): 1.5566524830295307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Processing-in-cache (PiC) and Processing-in-memory (PiM) architectures, especially those utilizing bit-line computing, offer promising solutions to mitigate data movement bottlenecks within the memory hierarchy. While previous studies have explored the integration of compute units within individual memory levels, the complexity and potential overheads associated with these designs have often limited their capabilities. This paper introduces a novel PiC/PiM architecture, Concurrent Hierarchical In-Memory Processing (CHIME), which strategically incorporates heterogeneous compute units across multiple levels of the memory hierarchy. This design targets the efficient execution of diverse, domain-specific workloads by placing computations closest to the data where it optimizes performance, energy consumption, data movement costs, and area. CHIME employs STT-RAM due to its various advantages in PiC/PiM computing, such as high density, low leakage, and better resiliency to data corruption from activating multiple word lines. We demonstrate that CHIME enhances concurrency and improves compute unit utilization at each level of the memory hierarchy. We present strategies for exploring the design space, grouping, and placing the compute units across the memory hierarchy. Experiments reveal that, compared to the state-of-the-art bit-line computing approaches, CHIME achieves significant speedup and energy savings of 57.95% and 78.23% for various domain-specific workloads, while reducing the overheads associated with single-level compute designs.
- Abstract(参考訳): Processing-in-cache(PiC)とProcessing-in-Memory(PiM)アーキテクチャ、特にビットラインコンピューティングを利用するアーキテクチャは、メモリ階層内のデータ移動ボトルネックを軽減するための有望なソリューションを提供する。
以前の研究では、個々のメモリレベルにおける計算ユニットの統合について検討されてきたが、これらの設計に関連する複雑さと潜在的なオーバーヘッドは、しばしばその能力を制限している。
本稿では、メモリ階層の複数のレベルにまたがる異種計算ユニットを戦略的に組み込んだ、新しいPiC/PiMアーキテクチャである Concurrent Hierarchical In-Memory Processing (CHIME)を紹介する。
この設計は、パフォーマンス、エネルギー消費、データ移動コスト、および領域を最適化するデータに最も近い計算を配置することで、多様なドメイン固有のワークロードの効率的な実行を目標としている。
CHIMEは、高密度、低リーク、複数ワードラインの活性化によるデータの破損に対する回復力の向上など、PiC/PiMコンピューティングにおける様々な利点のためにSTT-RAMを採用している。
我々は,CHIMEが並列性を高め,メモリ階層のレベルごとの計算単位利用を改善することを実証した。
設計空間を探索し、グループ化し、メモリ階層全体にわたって計算ユニットを配置するための戦略を示す。
実験によると、CHIMEは最先端のビット線コンピューティングアプローチと比較して、様々なドメイン固有のワークロードに対して57.95%と78.23%の大幅なスピードアップと省エネを実現し、シングルレベルの計算設計に関連するオーバーヘッドを低減している。
関連論文リスト
- Architectural Exploration of Application-Specific Resonant SRAM Compute-in-Memory (rCiM) [1.0687104237121408]
本稿では,多様な実装戦略を取り入れた設計のエネルギーと遅延を最適化する自動化ツールを提案する。
このツールは全てのベンチマークの平均エネルギー消費量を80.9%削減する。
論文 参考訳(メタデータ) (2024-11-14T16:01:05Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - STT-RAM-based Hierarchical In-Memory Computing [1.1470070927586018]
インメモリコンピューティングは、メモリ内で直接計算を行うことで、コンピュータシステムにおけるフォン・ノイマンのボトルネックを克服することを約束する。
これまでの研究では、非揮発性、低リーク電力、高密度、耐久性、商業的生存性などの理由から、インメモリコンピューティングにSpin-Transfer Torque RAM(STT-RAM)を使うことが提案されている。
本稿では、メモリ階層の異なるレベルを処理要素で拡張し、ワークロード実行を最適化する階層型インメモリコンピューティングについて検討する。
論文 参考訳(メタデータ) (2024-07-29T01:43:26Z) - Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - DESCNet: Developing Efficient Scratchpad Memories for Capsule Network
Hardware [12.26801463167931]
Capsule Networks(CapsNets)は、Deep Neural Networks(DNNs)と比較して、一般化能力を改善した。
CapsNetは計算とメモリの要求がかなり高く、そのエネルギー効率のよい推論は難しい課題である。
本稿では,ハードウェアアクセラレーターが高速なCapsNets推論を実行する際の(オンチップ)メモリの設計と管理に関する課題を,初めて詳細に分析する。
論文 参考訳(メタデータ) (2020-10-12T14:50:59Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。