論文の概要: Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators
- arxiv url: http://arxiv.org/abs/2403.13082v1
- Date: Tue, 19 Mar 2024 18:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:56:56.759789
- Title: Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators
- Title(参考訳): クロスバー型アナログインメモリ加速器のADC効率向上のためのプルーニング
- Authors: Timur Ibrayev, Isha Garg, Indranil Chakraborty, Kaushik Roy,
- Abstract要約: クロスバー型アナログインメモリアーキテクチャはディープニューラルネットワーク(DNN)の高速化に魅力的である
クロスバー出力の通信にはアナログ・デジタル変換器(ADC)が必要である。
ADCは各クロスバー処理ユニットのエネルギーと面積の大部分を消費する。
ADC固有の非効率性を目標とするクロスバー調整プルーニングの動機付けを行う。
- 参考スコア(独自算出の注目度): 9.169425049927554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has proved successful in many applications but suffers from high computational demands and requires custom accelerators for deployment. Crossbar-based analog in-memory architectures are attractive for acceleration of deep neural networks (DNN), due to their high data reuse and high efficiency enabled by combining storage and computation in memory. However, they require analog-to-digital converters (ADCs) to communicate crossbar outputs. ADCs consume a significant portion of energy and area of every crossbar processing unit, thus diminishing the potential efficiency benefits. Pruning is a well-studied technique to improve the efficiency of DNNs but requires modifications to be effective for crossbars. In this paper, we motivate crossbar-attuned pruning to target ADC-specific inefficiencies. This is achieved by identifying three key properties (dubbed D.U.B.) that induce sparsity that can be utilized to reduce ADC energy without sacrificing accuracy. The first property ensures that sparsity translates effectively to hardware efficiency by restricting sparsity levels to Discrete powers of 2. The other 2 properties encourage columns in the same crossbar to achieve both Unstructured and Balanced sparsity in order to amortize the accuracy drop. The desired D.U.B. sparsity is then achieved by regularizing the variance of $L_{0}$ norms of neighboring columns within the same crossbar. Our proposed implementation allows it to be directly used in end-to-end gradient-based training. We apply the proposed algorithm to convolutional layers of VGG11 and ResNet18 models, trained on CIFAR-10 and ImageNet datasets, and achieve up to 7.13x and 1.27x improvement, respectively, in ADC energy with less than 1% drop in accuracy.
- Abstract(参考訳): ディープラーニングは多くのアプリケーションで成功したが、高い計算要求に悩まされており、デプロイにはカスタムアクセラレータを必要とする。
クロスバーベースのアナログインメモリアーキテクチャは、高いデータ再利用とメモリのストレージと計算を組み合わせることで高効率を実現するため、ディープニューラルネットワーク(DNN)の加速に魅力がある。
しかし、それらはクロスバー出力を伝えるためにアナログ・デジタル変換器(ADC)を必要とする。
ADCはすべてのクロスバー処理ユニットのエネルギーと面積の大部分を消費するので、潜在的な効率性は低下する。
プルーニングはDNNの効率を改善するためによく研究されている手法であるが、クロスバーに有効な修正が必要である。
本稿では,ADC固有の非効率性を目標とするクロスバー調整プルーニングの動機付けを行う。
これは、3つの重要な性質(D.U.B.と呼ばれる)を同定し、精度を犠牲にすることなくADCエネルギーを低減できる空間性を誘導することで達成される。
最初の特性は、スパーシティレベルを2の離散パワーに制限することで、スペーシティがハードウェア効率に効果的に変換されることを保証する。
他の2つの特性は、精度の低下を和らげるために、同じクロスバーの列が非構造化とバランスの取れた間隔の両方を達成することを奨励する。
所望のD.U.B.間隔は、同じクロスバー内の隣接する列の$L_{0}$ノルムの分散を規則化することによって達成される。
提案した実装は、エンドツーエンドのグラデーションベースのトレーニングで直接使用することができる。
提案アルゴリズムは,CIFAR-10とImageNetデータセットに基づいてトレーニングされたVGG11とResNet18モデルの畳み込み層に適用し,それぞれ7.13倍,1.27倍の改善を実現した。
関連論文リスト
- Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - Containing Analog Data Deluge at Edge through Frequency-Domain
Compression in Collaborative Compute-in-Memory Networks [0.0]
本稿では,ディープラーニング推論タスクにおける領域効率向上のための新しい手法を提案する。
アナログデータをより効率的に処理することにより、センサからの貴重なデータを選択的に保持し、アナログデータデルージュによる課題を軽減することができる。
論文 参考訳(メタデータ) (2023-09-20T03:52:04Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Signed Binary Weight Networks [17.07866119979333]
2つの重要なアルゴリズム技術は、効率の良い推論を可能にすることを約束している。
本稿では,さらに効率を向上させるために,署名バイナリネットワークと呼ばれる新しい手法を提案する。
提案手法は,イメージネットとCIFAR10データセットの2進法で同等の精度を達成し,69%の空間性を実現する。
論文 参考訳(メタデータ) (2022-11-25T00:19:21Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - Binary DAD-Net: Binarized Driveable Area Detection Network for
Autonomous Driving [94.40107679615618]
本稿では,二項化駆動型領域検出ネットワーク(バイナリDAD-Net)を提案する。
エンコーダ、ボトルネック、デコーダ部分の2重みとアクティベーションのみを使用する。
パブリックデータセット上で、最先端のセマンティックセグメンテーションネットワークより優れています。
論文 参考訳(メタデータ) (2020-06-15T07:09:01Z) - Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference [16.812184391068786]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、効率的なハードウェアアクセラレーションを必要とする。
systolic array (SA)は、処理要素(PE)のパイプライン化された2D配列である
CNN推論を特に最適化するために,従来のSAアーキテクチャの2つの重要な改善点について述べる。
論文 参考訳(メタデータ) (2020-05-16T20:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。