論文の概要: CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures
- arxiv url: http://arxiv.org/abs/2401.07671v2
- Date: Wed, 17 Jan 2024 13:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:12:31.126004
- Title: CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures
- Title(参考訳): CLSA-CIM: 計算メモリアーキテクチャのためのクロスレイヤスケジューリング手法
- Authors: Rebecca Pelke, Jose Cubero-Cascante, Nils Bosbach, Felix Staudigl,
Rainer Leupers, Jan Moritz Joseph
- Abstract要約: CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for efficient machine learning (ML) accelerators is growing
rapidly, driving the development of novel computing concepts such as resistive
random access memory (RRAM)-based tiled computing-in-memory (CIM)
architectures. CIM allows to compute within the memory unit, resulting in
faster data processing and reduced power consumption. Efficient compiler
algorithms are essential to exploit the potential of tiled CIM architectures.
While conventional ML compilers focus on code generation for CPUs, GPUs, and
other von Neumann architectures, adaptations are needed to cover CIM
architectures. Cross-layer scheduling is a promising approach, as it enhances
the utilization of CIM cores, thereby accelerating computations. Although
similar concepts are implicitly used in previous work, there is a lack of clear
and quantifiable algorithmic definitions for cross-layer scheduling for tiled
CIM architectures. To close this gap, we present CLSA-CIM, a cross-layer
scheduling algorithm for tiled CIM architectures. We integrate CLSA-CIM with
existing weight-mapping strategies and compare performance against
state-of-the-art (SOTA) scheduling algorithms. CLSA-CIM improves the
utilization by up to 17.9 x , resulting in an overall speedup increase of up to
29.2 x compared to SOTA.
- Abstract(参考訳): 機械学習(ML)アクセラレーターの需要は急速に増加しており、抵抗ランダムアクセスメモリ(RRAM)ベースのタイル型コンピューティングインメモリ(CIM)アーキテクチャのような新しいコンピューティング概念が発展しつつある。
CIMはメモリユニット内での計算を可能にし、高速なデータ処理と消費電力削減を実現している。
効率的なコンパイラアルゴリズムは、タイル付きCIMアーキテクチャの可能性を活用するために不可欠である。
従来のMLコンパイラはCPU、GPU、フォン・ノイマンアーキテクチャのコード生成に重点を置いているが、CIMアーキテクチャをカバーするには適応が必要である。
CIMコアの利用が促進され、計算が高速化されるため、層間スケジューリングは有望なアプローチである。
同様の概念は以前の研究で暗黙的に使われているが、タイル付きCIMアーキテクチャの層間スケジューリングには明確で定量的なアルゴリズム定義がない。
このギャップを埋めるために,CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMを既存の重み付け戦略と統合し、最先端(SOTA)スケジューリングアルゴリズムと比較する。
CLSA-CIMは最大17.9倍の性能向上を実現し、SOTAと比較して総速度は29.2倍に向上した。
関連論文リスト
- CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory
Accelerators [11.295416364138232]
汎用CIMアーキテクチャのための汎用多レベルコンパイルフレームワークであるCIM-MLCを提案する。
CIM-MLCは、複数のアーキテクチャ層にわたるマッピングとスケジューリング戦略を探索することができる。
論文 参考訳(メタデータ) (2024-01-23T01:33:09Z) - Fast, Scalable, Warm-Start Semidefinite Programming with Spectral
Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。
USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2023-12-19T02:27:22Z) - DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data
Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。
DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。
最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文 参考訳(メタデータ) (2023-10-31T12:49:54Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting [0.10547353841674209]
本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。
提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。
TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
論文 参考訳(メタデータ) (2022-05-02T09:58:18Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with
Co-designed Compressed Neural Networks [0.6817102408452476]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。
CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。
計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
論文 参考訳(メタデータ) (2020-10-24T10:31:49Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。