論文の概要: BF-IMNA: A Bit Fluid In-Memory Neural Architecture for Neural Network Acceleration
- arxiv url: http://arxiv.org/abs/2411.01417v1
- Date: Sun, 03 Nov 2024 03:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:43.365126
- Title: BF-IMNA: A Bit Fluid In-Memory Neural Architecture for Neural Network Acceleration
- Title(参考訳): BF-IMNA: ニューラルネットワーク高速化のためのビット流体インメモリニューラルアーキテクチャ
- Authors: Mariam Rakka, Rachid Karami, Ahmed M. Eltawil, Mohammed E. Fouda, Fadi Kurdahi,
- Abstract要約: 本稿では,CNN(End-to-end Convolutional NN)推論のためのビット流動型IMCアクセラレータであるBF-IMNAを提案する。
BF-IMNAの中心はAssociative Processors (AP) であり、これはビットシリアルワード並列シングルインストラクション、Multiple Data (SIMD) のようなエンジンである。
本稿では,AlexNet,VGG16,ResNet50,BF-IMNAにおける画像Netのエンドツーエンド推論性能について報告する。
- 参考スコア(独自算出の注目度): 4.074292412539369
- License:
- Abstract: Mixed-precision quantization works Neural Networks (NNs) are gaining traction for their efficient realization on the hardware leading to higher throughput and lower energy. In-Memory Computing (IMC) accelerator architectures are offered as alternatives to traditional architectures relying on a data-centric computational paradigm, diminishing the memory wall problem, and scoring high throughput and energy efficiency. These accelerators can support static fixed-precision but are not flexible to support mixed-precision NNs. In this paper, we present BF-IMNA, a bit fluid IMC accelerator for end-to-end Convolutional NN (CNN) inference that is capable of static and dynamic mixed-precision without any hardware reconfiguration overhead at run-time. At the heart of BF-IMNA are Associative Processors (APs), which are bit-serial word-parallel Single Instruction, Multiple Data (SIMD)-like engines. We report the performance of end-to-end inference of ImageNet on AlexNet, VGG16, and ResNet50 on BF-IMNA for different technologies (eNVM and NVM), mixed-precision configurations, and supply voltages. To demonstrate bit fluidity, we implement HAWQ-V3's per-layer mixed-precision configurations for ResNet18 on BF-IMNA using different latency budgets, and results reveal a trade-off between accuracy and Energy-Delay Product (EDP): On one hand, mixed-precision with a high latency constraint achieves the closest accuracy to fixed-precision INT8 and reports a high (worse) EDP compared to fixed-precision INT4. On the other hand, with a low latency constraint, BF-IMNA reports the closest EDP to fixed-precision INT4, with a higher degradation in accuracy compared to fixed-precision INT8. We also show that BF-IMNA with fixed-precision configuration still delivers performance that is comparable to current state-of-the-art accelerators: BF-IMNA achieves $20\%$ higher energy efficiency and $2\%$ higher throughput.
- Abstract(参考訳): 混合精度量子化(mixed-precision Quantization) ニューラルネットワーク(NN)は、ハードウェア上での効率的な実現によって、高いスループットと低いエネルギへと導かれつつある。
インメモリコンピューティング(IMC)アクセラレーターアーキテクチャは、データ中心の計算パラダイムに依存し、メモリウォールの問題を減らし、高いスループットとエネルギー効率を評価する従来のアーキテクチャに代わるものとして提供される。
これらのアクセラレータは静的な固定精度をサポートできるが、混合精度NNをサポートするには柔軟性がない。
本稿では,CNN(End-to-end Convolutional NN)推論のためのビット流体ICCアクセラレータであるBF-IMNAについて述べる。
BF-IMNAの中心はAssociative Processors (AP) であり、これはビットシリアルワード並列シングルインストラクション、Multiple Data (SIMD) のようなエンジンである。
各種技術(eNVMとNVM)、混合精度構成、サプライ電圧のBF-IMNAにおけるImageNet on AlexNet, VGG16, ResNet50のエンドツーエンド推論性能について報告する。
ビット流動性を示すため,BF-IMNA上でのResNet18におけるHAWQ-V3の層ごとの混合精度構成を実装した。その結果,精度とエネルギ遅延生成物(EDP)とのトレードオフが明らかとなった。一方,高い遅延制約による混合精度は固定精度INT8に最も近い精度を実現し,固定精度INT4と比較して高い(弱い)EDPを報告する。
一方、BF-IMNAは低レイテンシの制約により、固定精度INT4に最も近いEDPを報告し、固定精度INT8よりも高精度に精度を劣化させる。
固定精度構成のBF-IMNAは、現在の最先端アクセラレーターに匹敵するパフォーマンスを提供する。
関連論文リスト
- Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators [11.832487701641723]
非揮発性メモリ(NVM)デバイスは、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。
ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(NFT)を提案する。
提案手法は,既存の最先端手法よりも46.71%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-23T22:56:26Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - On the Tradeoff between Energy, Precision, and Accuracy in Federated
Quantized Neural Networks [68.52621234990728]
無線ネットワーク上でのフェデレーション学習(FL)は、精度、エネルギー効率、精度のバランスをとる必要がある。
本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現できる量子化FLフレームワークを提案する。
我々のフレームワークは標準的なFLモデルと比較してエネルギー消費量を最大53%削減できる。
論文 参考訳(メタデータ) (2021-11-15T17:00:03Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。