論文の概要: Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow
- arxiv url: http://arxiv.org/abs/2408.02473v1
- Date: Mon, 5 Aug 2024 13:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:26:57.548487
- Title: Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow
- Title(参考訳): 注意に基づくTinyML: 不均一なアクセラレーションアーキテクチャと自動デプロイメントフロー
- Authors: Philip Wiese, Gamze İslamoğlu, Moritz Scherer, Luka Macan, Victor J. B. Jung, Alessio Burrello, Francesco Conti, Luca Benini,
- Abstract要約: 我々は、オクタコアクラスタと量子化されたアテンションのためのアクセラレータを備えた、小さなMLパワーエンベロープにおけるアテンションベースのモデルを実証する。
デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを達成することができる。
- 参考スコア(独自算出の注目度): 11.119349573583055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the challenges for Tiny Machine Learning (tinyML) is keeping up with the evolution of Machine Learning models from Convolutional Neural Networks to Transformers. We address this by leveraging a heterogeneous architectural template coupling RISC-V processors with hardwired accelerators supported by an automated deployment flow. We demonstrate an Attention-based model in a tinyML power envelope with an octa-core cluster coupled with an accelerator for quantized Attention. Our deployment flow enables an end-to-end 8-bit MobileBERT, achieving leading-edge energy efficiency and throughput of 2960 GOp/J and 154 GOp/s at 32.5 Inf/s consuming 52.0 mW (0.65 V, 22 nm FD-SOI technology).
- Abstract(参考訳): Tiny Machine Learning(tinyML)の課題のひとつは、畳み込みニューラルネットワークからトランスフォーマーへのマシンラーニングモデルの進化に追随することだ。
我々は、RISC-Vプロセッサとハードワイヤ型アクセラレータを結合した異種アーキテクチャテンプレートを活用することで、この問題に対処する。
我々は,小容量のMLパワーエンベロープに,オクタコアクラスタとアクタライズされたアテンションのアクセラレータを結合したアテンションモデルを示す。
デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを実現することができる。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers [13.177523799771635]
トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。
トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。
組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
論文 参考訳(メタデータ) (2023-07-07T10:05:38Z) - Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer [0.8808021343665321]
マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。
CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
論文 参考訳(メタデータ) (2022-11-09T07:19:33Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。