論文の概要: BSC: Block-based Stochastic Computing to Enable Accurate and Efficient
TinyML
- arxiv url: http://arxiv.org/abs/2111.06686v1
- Date: Fri, 12 Nov 2021 12:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 19:37:51.174408
- Title: BSC: Block-based Stochastic Computing to Enable Accurate and Efficient
TinyML
- Title(参考訳): BSC: 正確で効率的なTinyMLを実現するブロックベースの確率計算
- Authors: Yuhong Song, Edwin Hsing-Mean Sha, Qingfeng Zhuge, Rui Xu, Yongzhuo
Zhang, Bingzhe Li, Lei Yang
- Abstract要約: マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。
現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。
エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
- 参考スコア(独自算出の注目度): 10.294484356351152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Along with the progress of AI democratization, machine learning (ML) has been
successfully applied to edge applications, such as smart phones and automated
driving. Nowadays, more applications require ML on tiny devices with extremely
limited resources, like implantable cardioverter defibrillator (ICD), which is
known as TinyML. Unlike ML on the edge, TinyML with a limited energy supply has
higher demands on low-power execution. Stochastic computing (SC) using
bitstreams for data representation is promising for TinyML since it can perform
the fundamental ML operations using simple logical gates, instead of the
complicated binary adder and multiplier. However, SC commonly suffers from low
accuracy for ML tasks due to low data precision and inaccuracy of arithmetic
units. Increasing the length of the bitstream in the existing works can
mitigate the precision issue but incur higher latency. In this work, we propose
a novel SC architecture, namely Block-based Stochastic Computing (BSC). BSC
divides inputs into blocks, such that the latency can be reduced by exploiting
high data parallelism. Moreover, optimized arithmetic units and output revision
(OUR) scheme are proposed to improve accuracy. On top of it, a global
optimization approach is devised to determine the number of blocks, which can
make a better latency-power trade-off. Experimental results show that BSC can
outperform the existing designs in achieving over 10% higher accuracy on ML
tasks and over 6 times power reduction.
- Abstract(参考訳): AIの民主化の進展に伴い、マシンラーニング(ML)は、スマートフォンや自動運転といったエッジアプリケーションに成功している。
現在、多くのアプリケーションは、TinyMLとして知られる埋め込み型除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。
エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
データ表現にビットストリームを使用する確率計算(SC)は、複雑なバイナリ加算器や乗算器の代わりに単純な論理ゲートを使って基本的なML操作を実行できるため、TinyMLにとって有望である。
しかし、SCはデータ精度が低く、演算単位が不正確であるため、MLタスクの精度が低い。
既存の作業におけるビットストリームの長さの増大は、精度の問題を緩和するが、レイテンシは高くなる。
本稿では,Block-based Stochastic Computing (BSC) という新しいSCアーキテクチャを提案する。
BSCは入力をブロックに分割し、高いデータ並列性を利用してレイテンシを低減する。
さらに、最適化演算ユニットと出力修正(our)スキームを提案し、精度の向上を図る。
さらに、ブロック数を決定するためにグローバル最適化アプローチが考案され、これによりレイテンシーとパワーのトレードオフが改善される。
実験の結果,BSCはMLタスクにおいて10%以上の精度を実現し,消費電力を6倍以上削減できることがわかった。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - Deep Learning Assisted Multiuser MIMO Load Modulated Systems for
Enhanced Downlink mmWave Communications [68.96633803796003]
本稿では, マルチユーザ負荷変調アレイ (MU-LMA) に着目し, マイクロウェーブ (mmWave) マルチインプット・マルチアウトプット (MIMO) システムにおいて, マルチユーザ負荷変調アレイ (MU-LMA) の小型化とコスト削減を図っている。
ダウンリンクMU-LMAの既存のプリコーディングアルゴリズムは、自由度と複雑なシステム構成の低下に悩まされるサブアレイ構造化(SAS)送信機に依存している。
本稿では,FAS (Full-array Structured) 送信機を用いたMU-LMAシステムを提案し,それに応じて2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-08T08:54:56Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Tiny Classifier Circuits: Evolving Accelerators for Tabular Data [0.8936201690845327]
ティニー回路は小さすぎて(すなわち300以上の論理ゲートが存在しない)「ティニー回路」と呼ばれる。
本稿では,従来の機械学習に匹敵するデータ分類のための回路の自動予測手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:13:39Z) - Resource frugal optimizer for quantum machine learning [0.7046417074932257]
量子機械学習(Quantum Machine Learning、QML)は、量子コンピュータの応用分野として注目されている。
変分QMLアルゴリズムは、特に量子データを含む場合、実際のハードウェアにおける実用的な問題を解く可能性がある。
我々は、損失関数を定義する測度演算子と同様に、両方のデータセットに対して同時ランダムサンプリングを提唱する。
論文 参考訳(メタデータ) (2022-11-09T15:29:03Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - FBM: Fast-Bit Allocation for Mixed-Precision Quantization [1.4941013982958207]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズを精度を大幅に低下させることなく減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
既存の混合精度のスキームは、高い探査スペースを持つことに依存しており、結果として大きな炭素フットプリントとなる。
本研究では,FBM(Fast-Bit Allocation for Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Exponential Error Convergence in Data Classification with Optimized
Random Features: Acceleration by Quantum Machine Learning [8.98526174345299]
量子コンピュータによる機械学習のためのアルゴリズム、量子機械学習(QML)は、最適化されたランダムな特徴のサンプリングを指数関数的に高速化することができる。
ここでは、最適化されたランダムな特徴によって加速される分類タスクのためのQMLアルゴリズムを構築する。
最適化されたランダムな特徴量に対するQMLアルゴリズムと勾配降下(SGD)を組み合わせることで、最先端の指数収束速度を達成できることを実証する。
論文 参考訳(メタデータ) (2021-06-16T18:00:00Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。