論文の概要: Memristive Stochastic Computing for Deep Learning Parameter Optimization
- arxiv url: http://arxiv.org/abs/2103.06506v1
- Date: Thu, 11 Mar 2021 07:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:52:07.884018
- Title: Memristive Stochastic Computing for Deep Learning Parameter Optimization
- Title(参考訳): 深層学習パラメータ最適化のためのmemristive stochastic computing
- Authors: Corey Lammie, Jason K. Eshraghian, Wei D. Lu, Mostafa Rahimi Azghadi
- Abstract要約: コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。
40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
- 参考スコア(独自算出の注目度): 1.6344851071810071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Computing (SC) is a computing paradigm that allows for the
low-cost and low-power computation of various arithmetic operations using
stochastic bit streams and digital logic. In contrast to conventional
representation schemes used within the binary domain, the sequence of bit
streams in the stochastic domain is inconsequential, and computation is usually
non-deterministic. In this brief, we exploit the stochasticity during switching
of probabilistic Conductive Bridging RAM (CBRAM) devices to efficiently
generate stochastic bit streams in order to perform Deep Learning (DL)
parameter optimization, reducing the size of Multiply and Accumulate (MAC)
units by 5 orders of magnitude. We demonstrate that in using a 40-nm
Complementary Metal Oxide Semiconductor (CMOS) process our scalable
architecture occupies 1.55mm$^2$ and consumes approximately 167$\mu$W when
optimizing parameters of a Convolutional Neural Network (CNN) while it is being
trained for a character recognition task, observing no notable reduction in
accuracy post-training.
- Abstract(参考訳): Stochastic Computing (SC) は、確率ビットストリームとデジタル論理を用いた様々な演算の低コストで低消費電力の計算を可能にする計算パラダイムである。
バイナリ領域内で使われる従来の表現スキームとは対照的に、確率領域内のビットストリームのシーケンスは不連続であり、計算は通常非決定的である。
本稿では,確率的導電性ブリッジRAM(CBRAM)装置のスイッチング時の確率性を利用して,確率的ビットストリームを効率よく生成し,Deep Learning(DL)パラメータ最適化を行い,乗算および累積(MAC)ユニットのサイズを5桁に削減する。
40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャが1.55mm$^2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$\mu$Wを消費し、精度の大幅な低下を観察しないことを実証した。
関連論文リスト
- UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - A Distributed Data-Parallel PyTorch Implementation of the Distributed
Shampoo Optimizer for Training Neural Networks At-Scale [5.206015354543744]
Shampooは、ニューラルネットワークをトレーニングするためのAdaGradファミリーに属するオンラインおよび最適化アルゴリズムである。
我々は、PyTorchのディープネットワークを大規模にトレーニングするために実装したアルゴリズムと性能最適化の完全な記述を提供する。
論文 参考訳(メタデータ) (2023-09-12T18:11:10Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Randomized Polar Codes for Anytime Distributed Machine Learning [66.46612460837147]
本稿では,低速な計算ノードに対して堅牢で,線形演算の近似計算と精度の両立が可能な分散コンピューティングフレームワークを提案する。
本稿では,復号化のための計算複雑性を低く保ちながら,実数値データを扱うための逐次復号アルゴリズムを提案する。
大規模行列乗算やブラックボックス最適化など,様々な文脈において,このフレームワークの潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-01T18:02:04Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Machine Learning-Based Optimal Mesh Generation in Computational Fluid
Dynamics [0.0]
最適メッシュ密度を特定するための機械学習手法を提案する。
古典的手法を用いて最適化メッシュを生成し,最適メッシュ密度を予測する畳み込みネットワークのトレーニングを提案する。
2万のシミュレーションのトレーニングセットを使用して、98.7%以上の精度を達成する。
論文 参考訳(メタデータ) (2021-02-25T15:25:17Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。