Fugu-MT 論文翻訳(概要): BSC: Block-based Stochastic Computing to Enable Accurate and Efficient TinyML

論文の概要: BSC: Block-based Stochastic Computing to Enable Accurate and Efficient TinyML

arxiv url: http://arxiv.org/abs/2111.06686v1
Date: Fri, 12 Nov 2021 12:28:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-15 19:37:51.174408
Title: BSC: Block-based Stochastic Computing to Enable Accurate and Efficient TinyML
Title（参考訳）: BSC: 正確で効率的なTinyMLを実現するブロックベースの確率計算
Authors: Yuhong Song, Edwin Hsing-Mean Sha, Qingfeng Zhuge, Rui Xu, Yongzhuo Zhang, Bingzhe Li, Lei Yang
Abstract要約: マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
参考スコア（独自算出の注目度）: 10.294484356351152
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Along with the progress of AI democratization, machine learning (ML) has been successfully applied to edge applications, such as smart phones and automated driving. Nowadays, more applications require ML on tiny devices with extremely limited resources, like implantable cardioverter defibrillator (ICD), which is known as TinyML. Unlike ML on the edge, TinyML with a limited energy supply has higher demands on low-power execution. Stochastic computing (SC) using bitstreams for data representation is promising for TinyML since it can perform the fundamental ML operations using simple logical gates, instead of the complicated binary adder and multiplier. However, SC commonly suffers from low accuracy for ML tasks due to low data precision and inaccuracy of arithmetic units. Increasing the length of the bitstream in the existing works can mitigate the precision issue but incur higher latency. In this work, we propose a novel SC architecture, namely Block-based Stochastic Computing (BSC). BSC divides inputs into blocks, such that the latency can be reduced by exploiting high data parallelism. Moreover, optimized arithmetic units and output revision (OUR) scheme are proposed to improve accuracy. On top of it, a global optimization approach is devised to determine the number of blocks, which can make a better latency-power trade-off. Experimental results show that BSC can outperform the existing designs in achieving over 10% higher accuracy on ML tasks and over 6 times power reduction.
Abstract（参考訳）: AIの民主化の進展に伴い、マシンラーニング(ML)は、スマートフォンや自動運転といったエッジアプリケーションに成功している。現在、多くのアプリケーションは、TinyMLとして知られる埋め込み型除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。データ表現にビットストリームを使用する確率計算(SC)は、複雑なバイナリ加算器や乗算器の代わりに単純な論理ゲートを使って基本的なML操作を実行できるため、TinyMLにとって有望である。しかし、SCはデータ精度が低く、演算単位が不正確であるため、MLタスクの精度が低い。既存の作業におけるビットストリームの長さの増大は、精度の問題を緩和するが、レイテンシは高くなる。本稿では,Block-based Stochastic Computing (BSC) という新しいSCアーキテクチャを提案する。 BSCは入力をブロックに分割し、高いデータ並列性を利用してレイテンシを低減する。さらに、最適化演算ユニットと出力修正(our)スキームを提案し、精度の向上を図る。さらに、ブロック数を決定するためにグローバル最適化アプローチが考案され、これによりレイテンシーとパワーのトレードオフが改善される。実験の結果,BSCはMLタスクにおいて10%以上の精度を実現し,消費電力を6倍以上削減できることがわかった。

関連論文リスト

FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文参考訳（メタデータ） (2025-04-28T12:47:23Z)
LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi [0.48212500317840945]
Raspberry Piのようなリソース制約のあるエッジデバイス上の大規模言語モデル(LLM)は、計算効率、消費電力、レスポンスレイテンシの課題を提示している。本稿では,低消費電力組込みシステム上でのLLMの高スループット・エネルギー効率実行を実現するために,量子化に基づく最適化手法について検討する。我々の発見は、エッジデバイス上でリアルタイムの対話型AIのための量子LLMの可能性を強調し、モバイルおよび組み込みアプリケーションにおける低消費電力で高効率なAIデプロイメントの道を開いた。
論文参考訳（メタデータ） (2025-04-02T20:29:39Z)
SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding [28.76164449548306]
MDSD(Multi-Draft Speculative Decoding)は、より小さなドラフトモデルを用いて複数のトークンシーケンスを生成することで、有望なソリューションを提供する。線形計算オーバーヘッドのみで受け入れ率を向上するMDSDの新しい,効率的なサンプリング検証手法であるSpecHubを提案する。
論文参考訳（メタデータ） (2024-11-08T02:47:07Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。 LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文参考訳（メタデータ） (2024-06-16T09:51:55Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
SignSGD with Federated Voting [69.06621279967865]
SignSGD with majority voting (signSGD-MV) は1ビット量子化により通信コストを大幅に削減できる効果的な分散学習アルゴリズムである。我々は、テキストフェデレート投票(signSGD-FV)を用いた新しいサインSGDを提案する。連合投票の考え方は、学習可能な重量を利用して多数決を行うことである。提案手法は, エッジデバイスが不均一なミニバッチサイズを使用する場合でも, 理論的収束を保証する。
論文参考訳（メタデータ） (2024-03-25T02:32:43Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Resource frugal optimizer for quantum machine learning [0.7046417074932257]
量子機械学習(Quantum Machine Learning、QML)は、量子コンピュータの応用分野として注目されている。変分QMLアルゴリズムは、特に量子データを含む場合、実際のハードウェアにおける実用的な問題を解く可能性がある。我々は、損失関数を定義する測度演算子と同様に、両方のデータセットに対して同時ランダムサンプリングを提唱する。
論文参考訳（メタデータ） (2022-11-09T15:29:03Z)
QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。 Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文参考訳（メタデータ） (2022-10-31T07:42:52Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
Exponential Error Convergence in Data Classification with Optimized Random Features: Acceleration by Quantum Machine Learning [8.98526174345299]
量子コンピュータによる機械学習のためのアルゴリズム、量子機械学習(QML)は、最適化されたランダムな特徴のサンプリングを指数関数的に高速化することができる。ここでは、最適化されたランダムな特徴によって加速される分類タスクのためのQMLアルゴリズムを構築する。最適化されたランダムな特徴量に対するQMLアルゴリズムと勾配降下(SGD)を組み合わせることで、最先端の指数収束速度を達成できることを実証する。
論文参考訳（メタデータ） (2021-06-16T18:00:00Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。