論文の概要: Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2102.05271v1
- Date: Wed, 10 Feb 2021 05:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:41:55.314007
- Title: Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークのトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャ
- Authors: Vinay Joshi, Wangxin He, Jae-sun Seo and Bipin Rajendran
- Abstract要約: ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
- 参考スコア(独自算出の注目度): 5.050213408539571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cost involved in training deep neural networks (DNNs) on von-Neumann
architectures has motivated the development of novel solutions for efficient
DNN training accelerators. We propose a hybrid in-memory computing (HIC)
architecture for the training of DNNs on hardware accelerators that results in
memory-efficient inference and outperforms baseline software accuracy in
benchmark tasks. We introduce a weight representation technique that exploits
both binary and multi-level phase-change memory (PCM) devices, and this leads
to a memory-efficient inference accelerator. Unlike previous in-memory
computing-based implementations, we use a low precision weight update
accumulator that results in more memory savings. We trained the ResNet-32
network to classify CIFAR-10 images using HIC. For a comparable model size,
HIC-based training outperforms baseline network, trained in floating-point
32-bit (FP32) precision, by leveraging appropriate network width multiplier.
Furthermore, we observe that HIC-based training results in about 50% less
inference model size to achieve baseline comparable accuracy. We also show that
the temporal drift in PCM devices has a negligible effect on post-training
inference accuracy for extended periods (year). Finally, our simulations
indicate HIC-based training naturally ensures that the number of write-erase
cycles seen by the devices is a small fraction of the endurance limit of PCM,
demonstrating the feasibility of this architecture for achieving hardware
platforms that can learn in the field.
- Abstract(参考訳): von-Neumannアーキテクチャ上のディープニューラルネットワーク(DNN)のトレーニングにかかるコストは、効率的なDNNトレーニングアクセラレータのための新しいソリューションの開発を動機づけています。
ハードウェアアクセラレータ上のDNNのトレーニングのためのハイブリッドインメモリコンピューティング(HIC)アーキテクチャを提案し、メモリ効率の高い推論とベンチマークタスクのベースラインソフトウェア精度を上回ります。
我々は,二値および多値相変化メモリ(pcm)デバイスの両方を利用する重み表現技術を導入することで,メモリ効率のよい推論アクセラレータを実現する。
従来のインメモリコンピューティングベースの実装とは異なり、少ない精度の更新アキュムレータを使用してメモリ節約を実現しています。
HICを用いてCIFAR-10画像を分類するためにResNet-32ネットワークを訓練した。
匹敵するモデルサイズのために、HICベースのトレーニングは、適切なネットワーク幅乗算器を利用して、浮動小数点32ビット(FP32)精度で訓練されたベースラインネットワークを上回っます。
さらに,hccに基づくトレーニングの結果,推定モデルサイズが約50%小さくなり,ベースラインに匹敵する精度が得られた。
また,PCM装置の時間的ドリフトが,長期(年)のトレーニング後の推測精度に無視できる影響があることが示唆された。
最後に、私たちのシミュレーションは、HICベースのトレーニングが、デバイスによって見られる書き込み消去サイクルの数がPCMの持久力制限のごく一部であることを自然に保証し、この分野で学習できるハードウェアプラットフォームの実現のためのこのアーキテクチャの実現性を示しています。
関連論文リスト
- Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - YFlows: Systematic Dataflow Exploration and Code Generation for
Efficient Neural Network Inference using SIMD Architectures on CPUs [3.1445034800095413]
CPU上にニューラルネットワークをデプロイする際の課題に対処する。
我々の新しいアプローチは、ニューラルネットワークのデータフローを使用して、データ再利用の機会を探ることです。
その結果,SIMDレジスタに出力を保持するデータフローが常に最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-10-01T05:11:54Z) - Synaptic metaplasticity with multi-level memristive devices [1.5598974049838272]
推論とトレーニングの両方において,メタ塑性を実現するためのメムリスタベースのハードウェアソリューションを提案する。
MNISTとFashion-MNISTの連続トレーニングにおいて,2層パーセプトロンの精度は97%,86%であった。
我々のアーキテクチャは、mmristorの制限された耐久性と互換性があり、メモリは15倍削減されている。
論文 参考訳(メタデータ) (2023-06-21T09:40:25Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Neural Architecture Search for Improving Latency-Accuracy Trade-off in
Split Computing [5.516431145236317]
スプリットコンピューティングは、IoTシステムにディープラーニングをデプロイする際のプライバシとレイテンシの問題に対処する、新たな機械学習推論技術である。
スプリットコンピューティングでは、ニューラルネットワークモデルは、エッジサーバとIoTデバイスをネットワークを介して分離し、協調的に処理される。
本稿ではスプリットコンピューティングのためのニューラルアーキテクチャサーチ(NAS)手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T03:15:43Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。