Fugu-MT 論文翻訳(概要): KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer

論文の概要: KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer

arxiv url: http://arxiv.org/abs/2407.16026v1
Date: Mon, 22 Jul 2024 20:07:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 19:25:20.590583
Title: KWT-Tiny: RISC-V Accelerated, Embedded Keyword Spotting Transformer
Title（参考訳）: KWT-Tiny:RISC-Vアクセラレーション、埋め込みキースポッティング変換器
Authors: Aness Al-Qawlaq, Ajay Kumar M, Deepu John,
Abstract要約: 本稿では, RISC-V プラットフォーム上での ARM Keyword Transformer (KWT) モデルの量子化とハードウェアアクセラレーションにより, エッジデバイスに対する Transformer モデルの適用について検討する。モデルは369倍小さく、出力クラスを35から2に減らして精度を10%低下させるしかなかった。その結果,Transformerベースのモデルを低消費電力IoTデバイスに移植し,高速化するための有効な方法が示された。
参考スコア（独自算出の注目度）: 0.40964539027092917
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper explores the adaptation of Transformerbased models for edge devices through the quantisation and hardware acceleration of the ARM Keyword Transformer (KWT) model on a RISC-V platform. The model was targeted to run on 64kB RAM in bare-metal C using a custom-developed edge AI library. KWT-1 was retrained to be 369 times smaller, with only a 10% loss in accuracy through reducing output classes from 35 to 2. The retraining and quantisation reduced model size from 2.42 MB to 1.65 kB. The integration of custom RISC-V instructions that accelerated GELU and SoftMax operations enabled a 5x speedup and thus ~5x power reduction in inference, with inference clock cycle counts decreasing from 26 million to 5.5 million clock cycles while incurring a small area overhead of approximately 29%. The results demonstrate a viable method for porting and accelerating Transformer-based models in low-power IoT devices.
Abstract（参考訳）: 本稿では, RISC-V プラットフォーム上での ARM Keyword Transformer (KWT) モデルの量子化とハードウェアアクセラレーションにより, エッジデバイスに対する Transformer モデルの適用について検討する。このモデルは、カスタム開発のエッジAIライブラリを使用して、64kB RAMをベアメタルCで動作させることを目標としていた。 KWT-1 は 369 倍小さく、出力クラスを 35 から 2。再訓練と量子化によりモデルサイズは2.42MBから1.65kBに縮小された。 GELUとSoftMax操作を高速化するカスタムRISC-V命令の統合により、5倍のスピードアップが可能となり、推論クロックのサイクルは2600万から550万に減少し、小さな領域のオーバーヘッドは約29%となった。その結果,Transformerベースのモデルを低消費電力IoTデバイスに移植し,高速化するための有効な方法が示された。

関連論文リスト

A Low-Power Streaming Speech Enhancement Accelerator For Edge Devices [0.0502254944841629]
トランスフォーマーに基づく音声強調モデルは印象的な結果をもたらすが、その構造はモデル圧縮電位を制限する。本稿では,モデルとハードウェア最適化による低消費電力ストリーミング音声強調器を提案する。提案する高性能モデルは,モデル圧縮とターゲットアプリケーションの共同設計によるハードウェア実行に最適化されている。
論文参考訳（メタデータ） (2025-03-27T10:13:41Z)
Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文参考訳（メタデータ） (2025-03-20T22:15:42Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow [11.119349573583055]
我々は、オクタコアクラスタと量子化されたアテンションのためのアクセラレータを備えた、小さなMLパワーエンベロープにおけるアテンションベースのモデルを実証する。デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを達成することができる。
論文参考訳（メタデータ） (2024-08-05T13:57:32Z)
Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。 MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文参考訳（メタデータ） (2024-04-03T14:14:08Z)
Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-03-29T15:07:21Z)
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文参考訳（メタデータ） (2022-10-14T10:32:05Z)
Reducing Activation Recomputation in Large Transformer Models [17.810669621463962]
本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。本手法は,アクティベーションメモリを5倍に削減し,アクティベーション再計算のオーバーヘッドを90%以上削減する。
論文参考訳（メタデータ） (2022-05-10T22:40:17Z)
Transformer Quality in Linear Time [95.2692237947444]
本稿では,トランスフォーマーの設計選択を再考し,長いシーケンスを扱う際の弱点に対処する手法を提案する。まず,低品質な単一ヘッドアテンションを最小限に設定できる,ゲートアテンションユニットというシンプルなレイヤを提案する。そこで我々は,この新層を補完する線形近似法を提案する。
論文参考訳（メタデータ） (2022-02-21T18:59:38Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文参考訳（メタデータ） (2020-10-28T15:00:09Z)
An Accurate EEGNet-based Motor-Imagery Brain-Computer Interface for Low-Power Edge Computing [13.266626571886354]
本稿では,MI-BCI(MI-BCI)の精度と堅牢性を示す。 EEGNetに基づく新しいモデルでは、低消費電力マイクロコントローラユニット(MCU)のメモリフットプリントと計算資源の要件が一致している。スケールされたモデルは、最小モデルを操作するために101msと4.28mJを消費する商用のCortex-M4F MCUにデプロイされ、中型モデルでは44msと18.1mJのCortex-M7にデプロイされる。
論文参考訳（メタデータ） (2020-03-31T19:52:05Z)
End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文参考訳（メタデータ） (2020-02-10T16:29:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。