論文の概要: Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow
- arxiv url: http://arxiv.org/abs/2408.02473v1
- Date: Mon, 5 Aug 2024 13:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:26:57.548487
- Title: Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow
- Title(参考訳): 注意に基づくTinyML: 不均一なアクセラレーションアーキテクチャと自動デプロイメントフロー
- Authors: Philip Wiese, Gamze İslamoğlu, Moritz Scherer, Luka Macan, Victor J. B. Jung, Alessio Burrello, Francesco Conti, Luca Benini,
- Abstract要約: 我々は、オクタコアクラスタと量子化されたアテンションのためのアクセラレータを備えた、小さなMLパワーエンベロープにおけるアテンションベースのモデルを実証する。
デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを達成することができる。
- 参考スコア(独自算出の注目度): 11.119349573583055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the challenges for Tiny Machine Learning (tinyML) is keeping up with the evolution of Machine Learning models from Convolutional Neural Networks to Transformers. We address this by leveraging a heterogeneous architectural template coupling RISC-V processors with hardwired accelerators supported by an automated deployment flow. We demonstrate an Attention-based model in a tinyML power envelope with an octa-core cluster coupled with an accelerator for quantized Attention. Our deployment flow enables an end-to-end 8-bit MobileBERT, achieving leading-edge energy efficiency and throughput of 2960 GOp/J and 154 GOp/s at 32.5 Inf/s consuming 52.0 mW (0.65 V, 22 nm FD-SOI technology).
- Abstract(参考訳): Tiny Machine Learning(tinyML)の課題のひとつは、畳み込みニューラルネットワークからトランスフォーマーへのマシンラーニングモデルの進化に追随することだ。
我々は、RISC-Vプロセッサとハードワイヤ型アクセラレータを結合した異種アーキテクチャテンプレートを活用することで、この問題に対処する。
我々は,小容量のMLパワーエンベロープに,オクタコアクラスタとアクタライズされたアテンションのアクセラレータを結合したアテンションモデルを示す。
デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを実現することができる。
関連論文リスト
- Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers [13.177523799771635]
トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。
トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。
組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
論文 参考訳(メタデータ) (2023-07-07T10:05:38Z) - RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible
and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration [15.869673535117032]
現在のトレーニングアルゴリズムは、精度とダイナミックレンジの要求を満たすために浮動小数点行列演算に依存している。
RedMulEは、多精度浮動小数点一般行列演算(GEMM-Ops)加速のために考案された、低消費電力の特殊アクセラレータである。
RedMulE は FP16 と FP8 で 58.5 GFLOPS と 117 GFLOPS をそれぞれ達成し、計算要素の配列を99.4% 利用している。
論文 参考訳(メタデータ) (2023-01-10T11:07:16Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - Robustifying the Deployment of tinyML Models for Autonomous
mini-vehicles [61.27933385742613]
本稿では,ループ内環境を含む自動運転ミニ車両を対象とした閉ループ学習フローを提案する。
我々は、小型CNNのファミリーを利用してミニ車両を制御し、コンピュータビジョンアルゴリズム、すなわち専門家を模倣してターゲット環境で学習する。
CNNのファミリを実行する場合、我々のソリューションはSTM32L4とk64f(Cortex-M4)の他の実装よりも優れており、レイテンシを13倍以上削減し、エネルギー消費を92%削減する。
論文 参考訳(メタデータ) (2020-07-01T07:54:26Z) - A Unified Learning Platform for Dynamic Frequency Scaling in Pipelined
Processors [1.1602089225841632]
個別命令の伝搬遅延に基づいてクロック周波数を動的に調整する機械学習(ML)設計フレームワークを提案する。
ランダムフォレストモデルは、リアルタイムで伝搬遅延を分類するために訓練される。
トレーニングされたモデルは、ベースラインプロセッサ内のパイプラインステージとしてVerilogで実装されている。
論文 参考訳(メタデータ) (2020-06-12T20:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。