論文の概要: WWW: What, When, Where to Compute-in-Memory
- arxiv url: http://arxiv.org/abs/2312.15896v1
- Date: Tue, 26 Dec 2023 06:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:57:57.700360
- Title: WWW: What, When, Where to Compute-in-Memory
- Title(参考訳): WWW:コンピューティング・イン・メモリとは何か、いつ、どこで?
- Authors: Tanvi Sharma, Mustafa Ali, Indranil Chakraborty, Kaushik Roy
- Abstract要約: コンピュート・イン・メモリ(CiM)は、フォン・ノイマンのマシンにおける高いデータ移動コストを軽減するための説得力のあるソリューションとして登場した。
本稿では,機械学習推論高速化のためのCiM統合に関する回答について検討する。
- 参考スコア(独自算出の注目度): 7.586375491100772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compute-in-memory (CiM) has emerged as a compelling solution to alleviate
high data movement costs in von Neumann machines. CiM can perform massively
parallel general matrix multiplication (GEMM) operations in memory, the
dominant computation in Machine Learning (ML) inference. However, re-purposing
memory for compute poses key questions on 1) What type of CiM to use: Given a
multitude of analog and digital CiMs, determining their suitability from
systems perspective is needed. 2) When to use CiM: ML inference includes
workloads with a variety of memory and compute requirements, making it
difficult to identify when CiM is more beneficial than standard processing
cores. 3) Where to integrate CiM: Each memory level has different bandwidth and
capacity, that affects the data movement and locality benefits of CiM
integration.
In this paper, we explore answers to these questions regarding CiM
integration for ML inference acceleration. We use Timeloop-Accelergy for early
system-level evaluation of CiM prototypes, including both analog and digital
primitives. We integrate CiM into different cache memory levels in an Nvidia
A100-like baseline architecture and tailor the dataflow for various ML
workloads. Our experiments show CiM architectures improve energy efficiency,
achieving up to 0.12x lower energy than the established baseline with INT-8
precision, and upto 4x performance gains with weight interleaving and
duplication. The proposed work provides insights into what type of CiM to use,
and when and where to optimally integrate it in the cache hierarchy for GEMM
acceleration.
- Abstract(参考訳): コンピュート・イン・メモリ(CiM)は、フォン・ノイマンマシンの高データ移動コストを軽減するための魅力的なソリューションとして登場した。
CiMは、機械学習(ML)推論において支配的な計算である、大規模並列汎用行列乗算(GEMM)演算をメモリ上で実行することができる。
しかし、計算用メモリの再購入は重要な疑問を呈する
1) アナログとデジタルのCiMが複数ある場合,システムの観点から適合性を決定する必要がある。
2) CiMを使用する場合: ML推論には、さまざまなメモリと計算要件のワークロードが含まれているため、CiMが標準の処理コアよりも有効であるかどうかの特定が難しい。
3) CiMを統合する場所: 各メモリレベルは異なる帯域幅と容量を持ち、CiM統合のデータの移動と局所性に影響を及ぼす。
本稿では,ML推論高速化のためのCiM統合に関するこれらの質問に対する回答について検討する。
我々は、アナログおよびデジタルプリミティブを含むCiMプロトタイプの初期システムレベルの評価にTimeloop-Accelergyを使用する。
CiMをNvidia A100のようなベースラインアーキテクチャでさまざまなキャッシュメモリレベルに統合し、さまざまなMLワークロードにデータフローを調整します。
実験の結果、CiMアーキテクチャはエネルギー効率を向上し、INT-8の精度で確立されたベースラインの最大0.12倍の低エネルギーを実現し、最大4倍の性能向上を達成できた。
提案した研究は、どのタイプのCiMを使用するか、いつ、どこで、GEMMアクセラレーションのためのキャッシュ階層にそれを最適に統合するかについての洞察を提供する。
関連論文リスト
- DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data
Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。
DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。
最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文 参考訳(メタデータ) (2023-10-31T12:49:54Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Machine Learning Training on a Real Processing-in-Memory System [9.286176889576996]
機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
論文 参考訳(メタデータ) (2022-06-13T10:20:23Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。
AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。
本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文 参考訳(メタデータ) (2021-04-28T09:50:35Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。