論文の概要: TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators
- arxiv url: http://arxiv.org/abs/2406.06544v1
- Date: Wed, 8 May 2024 20:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:00:19.025217
- Title: TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators
- Title(参考訳): TSB: NVCIMアクセラレータ上での効率的なDNNデプロイのためのTiny Shared Block
- Authors: Yifan Qin, Zheyu Yan, Zixuan Pan, Wujie Wen, Xiaobo Sharon Hu, Yiyu Shi,
- Abstract要約: Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。
TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
- 参考スコア(独自算出の注目度): 11.496631244103773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compute-in-memory (CIM) accelerators using non-volatile memory (NVM) devices offer promising solutions for energy-efficient and low-latency Deep Neural Network (DNN) inference execution. However, practical deployment is often hindered by the challenge of dealing with the massive amount of model weight parameters impacted by the inherent device variations within non-volatile computing-in-memory (NVCIM) accelerators. This issue significantly offsets their advantages by increasing training overhead, the time needed for mapping weights to device states, energy consumption, and diminishing inference accuracy. To mitigate these challenges, we propose the "Tiny Shared Block (TSB)" method, which integrates a small shared 1x1 convolution block into the DNN architecture. This block is designed to stabilize feature processing across the network, effectively reducing the impact of device variation. Extensive experimental results show that TSB achieves over 20x inference accuracy gap improvement, over 5x training speedup, and weights-to-device mapping cost reduction while requiring less than 0.4% of the original weights to be write-verified during programming, when compared with state-of-the-art baseline solutions. Our approach provides a practical and efficient solution for deploying robust DNN models on NVCIM accelerators, making it a valuable contribution to the field of energy-efficient AI hardware.
- Abstract(参考訳): 非揮発性メモリ(NVM)デバイスを使用したCIM(Compute-in-Memory)アクセラレータは、エネルギー効率と低レイテンシのDeep Neural Network(DNN)推論実行のための有望なソリューションを提供する。
しかし、実際には、非揮発性コンピューティングインメモリ(NVCIM)アクセラレーターにおける固有のデバイス変異の影響を受け、大量のモデルウェイトパラメータを扱うという課題によって、しばしば障害となる。
この問題は、トレーニングオーバーヘッドの増加、デバイス状態へのウェイトマッピングに必要な時間、エネルギー消費、推論精度の低下によって、彼らの利点を著しく相殺する。
これらの課題を軽減するために,小さな共有1x1畳み込みブロックをDNNアーキテクチャに統合した"Tiny Shared Block (TSB)"手法を提案する。
このブロックは、ネットワーク全体の機能処理を安定化し、デバイスの変動の影響を効果的に低減するように設計されている。
実験の結果,TSBは20倍以上の推論精度のギャップ改善,5倍以上のトレーニングスピードアップ,デバイス間マッピングコストの削減を実現し,プログラミング中に記述されたウェイトの0.4%未満を必要とせず,最先端のベースラインソリューションと比較した。
我々のアプローチは、NVCIMアクセラレーターに堅牢なDNNモデルをデプロイするための実用的で効率的なソリューションを提供する。
関連論文リスト
- Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators [11.832487701641723]
非揮発性メモリ(NVM)デバイスは、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。
ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(NFT)を提案する。
提案手法は,既存の最先端手法よりも46.71%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-23T22:56:26Z) - Computing-In-Memory Neural Network Accelerators for Safety-Critical
Systems: Can Small Device Variations Be Disastrous? [15.760502065894778]
NVMデバイスは様々な非理想性、特に製造欠陥やデバイスの動作によるサイクル・ツー・サイクルの変動によるデバイス・ツー・デバイスの変化に悩まされている。
本稿では,高次元空間におけるデバイス変動の特定の組み合わせを効果的に見つける方法を提案する。
論文 参考訳(メタデータ) (2022-07-15T17:38:01Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Dynamic Hard Pruning of Neural Networks at the Edge of the Internet [11.605253906375424]
動的ハードプルーニング(DynHP)技術は、トレーニング中にネットワークを段階的にプルーニングする。
DynHPは、最終ニューラルネットワークの調整可能なサイズ削減と、トレーニング中のNNメモリ占有率の削減を可能にする。
凍結メモリは、ハードプルーニング戦略による精度劣化を相殺するために、エンファンダイナミックバッチサイズアプローチによって再利用される。
論文 参考訳(メタデータ) (2020-11-17T10:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。