論文の概要: WWW: What, When, Where to Compute-in-Memory
- arxiv url: http://arxiv.org/abs/2312.15896v1
- Date: Tue, 26 Dec 2023 06:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:57:57.700360
- Title: WWW: What, When, Where to Compute-in-Memory
- Title(参考訳): WWW:コンピューティング・イン・メモリとは何か、いつ、どこで?
- Authors: Tanvi Sharma, Mustafa Ali, Indranil Chakraborty, Kaushik Roy
- Abstract要約: コンピュート・イン・メモリ(CiM)は、フォン・ノイマンのマシンにおける高いデータ移動コストを軽減するための説得力のあるソリューションとして登場した。
本稿では,機械学習推論高速化のためのCiM統合に関する回答について検討する。
- 参考スコア(独自算出の注目度): 7.586375491100772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compute-in-memory (CiM) has emerged as a compelling solution to alleviate
high data movement costs in von Neumann machines. CiM can perform massively
parallel general matrix multiplication (GEMM) operations in memory, the
dominant computation in Machine Learning (ML) inference. However, re-purposing
memory for compute poses key questions on 1) What type of CiM to use: Given a
multitude of analog and digital CiMs, determining their suitability from
systems perspective is needed. 2) When to use CiM: ML inference includes
workloads with a variety of memory and compute requirements, making it
difficult to identify when CiM is more beneficial than standard processing
cores. 3) Where to integrate CiM: Each memory level has different bandwidth and
capacity, that affects the data movement and locality benefits of CiM
integration.
In this paper, we explore answers to these questions regarding CiM
integration for ML inference acceleration. We use Timeloop-Accelergy for early
system-level evaluation of CiM prototypes, including both analog and digital
primitives. We integrate CiM into different cache memory levels in an Nvidia
A100-like baseline architecture and tailor the dataflow for various ML
workloads. Our experiments show CiM architectures improve energy efficiency,
achieving up to 0.12x lower energy than the established baseline with INT-8
precision, and upto 4x performance gains with weight interleaving and
duplication. The proposed work provides insights into what type of CiM to use,
and when and where to optimally integrate it in the cache hierarchy for GEMM
acceleration.
- Abstract(参考訳): コンピュート・イン・メモリ(CiM)は、フォン・ノイマンマシンの高データ移動コストを軽減するための魅力的なソリューションとして登場した。
CiMは、機械学習(ML)推論において支配的な計算である、大規模並列汎用行列乗算(GEMM)演算をメモリ上で実行することができる。
しかし、計算用メモリの再購入は重要な疑問を呈する
1) アナログとデジタルのCiMが複数ある場合,システムの観点から適合性を決定する必要がある。
2) CiMを使用する場合: ML推論には、さまざまなメモリと計算要件のワークロードが含まれているため、CiMが標準の処理コアよりも有効であるかどうかの特定が難しい。
3) CiMを統合する場所: 各メモリレベルは異なる帯域幅と容量を持ち、CiM統合のデータの移動と局所性に影響を及ぼす。
本稿では,ML推論高速化のためのCiM統合に関するこれらの質問に対する回答について検討する。
我々は、アナログおよびデジタルプリミティブを含むCiMプロトタイプの初期システムレベルの評価にTimeloop-Accelergyを使用する。
CiMをNvidia A100のようなベースラインアーキテクチャでさまざまなキャッシュメモリレベルに統合し、さまざまなMLワークロードにデータフローを調整します。
実験の結果、CiMアーキテクチャはエネルギー効率を向上し、INT-8の精度で確立されたベースラインの最大0.12倍の低エネルギーを実現し、最大4倍の性能向上を達成できた。
提案した研究は、どのタイプのCiMを使用するか、いつ、どこで、GEMMアクセラレーションのためのキャッシュ階層にそれを最適に統合するかについての洞察を提供する。
関連論文リスト
- Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing [1.5566524830295307]
本稿では、新しいPiC/PiMアーキテクチャ、Concurrent Hierarchical In-Memory Processing(CHIME)を紹介する。
CHIMEは、メモリ階層の複数のレベルにわたる不均一な計算ユニットを戦略的に組み込む。
実験の結果、最先端のビット線コンピューティングアプローチと比較して、CHIMEは57.95%と78.23%の大幅なスピードアップと省エネを実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-29T01:17:54Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2024-01-15T13:35:21Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Continual Learning Approach for Improving the Data and Computation
Mapping in Near-Memory Processing System [3.202860612193139]
ページと計算再マッピングによるデータ配置とリソース活用を最適化する人工知能メモリマッピング方式であるAIMMを提案する。
AIMMはニューラルネットワークを使用して、強化学習アルゴリズムを使用して訓練された実行中にほぼ最適なマッピングを実現します。
本研究では,AIMMが単一および複数プログラムシナリオにおけるベースラインNMP性能を最大70%と50%向上させたことを評価した。
論文 参考訳(メタデータ) (2021-04-28T09:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。