論文の概要: KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer
- arxiv url: http://arxiv.org/abs/2407.16026v1
- Date: Mon, 22 Jul 2024 20:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 19:25:20.590583
- Title: KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer
- Title(参考訳): KWT-Tiny:RISC-Vアクセラレーション、埋め込みキースポッティング変換器
- Authors: Aness Al-Qawlaq, Ajay Kumar M, Deepu John,
- Abstract要約: 本稿では, RISC-V プラットフォーム上での ARM Keyword Transformer (KWT) モデルの量子化とハードウェアアクセラレーションにより, エッジデバイスに対する Transformer モデルの適用について検討する。
モデルは369倍小さく、出力クラスを35から2に減らして精度を10%低下させるしかなかった。
その結果,Transformerベースのモデルを低消費電力IoTデバイスに移植し,高速化するための有効な方法が示された。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores the adaptation of Transformerbased models for edge devices through the quantisation and hardware acceleration of the ARM Keyword Transformer (KWT) model on a RISC-V platform. The model was targeted to run on 64kB RAM in bare-metal C using a custom-developed edge AI library. KWT-1 was retrained to be 369 times smaller, with only a 10% loss in accuracy through reducing output classes from 35 to 2. The retraining and quantisation reduced model size from 2.42 MB to 1.65 kB. The integration of custom RISC-V instructions that accelerated GELU and SoftMax operations enabled a 5x speedup and thus ~5x power reduction in inference, with inference clock cycle counts decreasing from 26 million to 5.5 million clock cycles while incurring a small area overhead of approximately 29%. The results demonstrate a viable method for porting and accelerating Transformer-based models in low-power IoT devices.
- Abstract(参考訳): 本稿では, RISC-V プラットフォーム上での ARM Keyword Transformer (KWT) モデルの量子化とハードウェアアクセラレーションにより, エッジデバイスに対する Transformer モデルの適用について検討する。
このモデルは、カスタム開発のエッジAIライブラリを使用して、64kB RAMをベアメタルCで動作させることを目標としていた。
KWT-1 は 369 倍小さく、出力クラスを 35 から 2。
再訓練と量子化によりモデルサイズは2.42MBから1.65kBに縮小された。
GELUとSoftMax操作を高速化するカスタムRISC-V命令の統合により、5倍のスピードアップが可能となり、推論クロックのサイクルは2600万から550万に減少し、小さな領域のオーバーヘッドは約29%となった。
その結果,Transformerベースのモデルを低消費電力IoTデバイスに移植し,高速化するための有効な方法が示された。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow [11.119349573583055]
我々は、オクタコアクラスタと量子化されたアテンションのためのアクセラレータを備えた、小さなMLパワーエンベロープにおけるアテンションベースのモデルを実証する。
デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを達成することができる。
論文 参考訳(メタデータ) (2024-08-05T13:57:32Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z) - Reducing Activation Recomputation in Large Transformer Models [17.810669621463962]
本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。
シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。
本手法は,アクティベーションメモリを5倍に削減し,アクティベーション再計算のオーバーヘッドを90%以上削減する。
論文 参考訳(メタデータ) (2022-05-10T22:40:17Z) - Transformer Quality in Linear Time [95.2692237947444]
本稿では,トランスフォーマーの設計選択を再考し,長いシーケンスを扱う際の弱点に対処する手法を提案する。
まず,低品質な単一ヘッドアテンションを最小限に設定できる,ゲートアテンションユニットというシンプルなレイヤを提案する。
そこで我々は,この新層を補完する線形近似法を提案する。
論文 参考訳(メタデータ) (2022-02-21T18:59:38Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - An Accurate EEGNet-based Motor-Imagery Brain-Computer Interface for
Low-Power Edge Computing [13.266626571886354]
本稿では,MI-BCI(MI-BCI)の精度と堅牢性を示す。
EEGNetに基づく新しいモデルでは、低消費電力マイクロコントローラユニット(MCU)のメモリフットプリントと計算資源の要件が一致している。
スケールされたモデルは、最小モデルを操作するために101msと4.28mJを消費する商用のCortex-M4F MCUにデプロイされ、中型モデルでは44msと18.1mJのCortex-M7にデプロイされる。
論文 参考訳(メタデータ) (2020-03-31T19:52:05Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。