論文の概要: TCN Mapping Optimization for Ultra-Low Power Time-Series Edge Inference
- arxiv url: http://arxiv.org/abs/2203.12925v1
- Date: Thu, 24 Mar 2022 08:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 22:03:20.888960
- Title: TCN Mapping Optimization for Ultra-Low Power Time-Series Edge Inference
- Title(参考訳): 超低電力時系列エッジ推定のためのtcnマッピング最適化
- Authors: Alessio Burrello, Alberto Dequino, Daniele Jahier Pagliari, Francesco
Conti, Marcello Zanghieri, Enrico Macii, Luca Benini, Massimo Poncino
- Abstract要約: 時間的畳み込みネットワーク(TCN)は、時系列分析のための軽量なディープラーニングモデルを生み出している。
本稿では,Parallel Ultra-Low Power(PULP)マイクロコントローラ上でTNをマッピングするための,自動探索手法と最適化カーネルのライブラリを導入する。
STM32L4で実行されるCube-AIツールキットよりも最大103倍低レイテンシと20.3倍低エネルギーを実現した商用PULPデバイス上でのアプローチをベンチマークした。
- 参考スコア(独自算出の注目度): 20.613281059206304
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Temporal Convolutional Networks (TCNs) are emerging lightweight Deep Learning
models for Time Series analysis. We introduce an automated exploration approach
and a library of optimized kernels to map TCNs on Parallel Ultra-Low Power
(PULP) microcontrollers. Our approach minimizes latency and energy by
exploiting a layer tiling optimizer to jointly find the tiling dimensions and
select among alternative implementations of the causal and dilated
1D-convolution operations at the core of TCNs. We benchmark our approach on a
commercial PULP device, achieving up to 103X lower latency and 20.3X lower
energy than the Cube-AI toolkit executed on the STM32L4 and from 2.9X to 26.6X
lower energy compared to commercial closed-source and academic open-source
approaches on the same hardware target.
- Abstract(参考訳): 時間的畳み込みネットワーク(TCN)は、時系列分析のための軽量なディープラーニングモデルを生み出している。
本稿では,並列超低消費電力 (pulp) マイクロコントローラ上でtcnをマッピングするための,自動探索手法と最適化カーネルのライブラリを提案する。
提案手法は,階層型ティリングオプティマイザを用いて,階層型ティリングディメンションを共同で検出し,TNのコアにおける因果および拡張1D-畳み込み操作の代替実装を選択することで,レイテンシとエネルギーを最小化する。
stm32l4で実行されるcube-aiツールキットの最大103倍のレイテンシと20.3倍のエネルギーを実現し、同じハードウェアターゲットでの商用クローズドソースおよびアカデミックオープンソースアプローチと比較して2.9倍から26.6倍の低エネルギー化を実現している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Lightweight Neural Architecture Search for Temporal Convolutional
Networks at the Edge [21.72253397805102]
この研究は特に、時系列処理のための畳み込みモデルであるTCN(Temporal Convolutional Networks)に焦点を当てている。
我々は,TNの最も特異なアーキテクチャパラメータの最適化を明示的に目標とする最初のNASツールを提案する。
提案したNASは,音声および生体信号を含む4つの実世界のエッジ関連タスクでテストする。
論文 参考訳(メタデータ) (2023-01-24T19:47:40Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Pruning In Time (PIT): A Lightweight Network Architecture Optimizer for
Temporal Convolutional Networks [20.943095081056857]
時間的畳み込みネットワーク(TCN)は、時系列処理タスクのためのディープラーニングモデルを約束している。
本稿では,時間軸の重み付け問題に対処し,重みとともに拡張因子を学習する自動拡張法を提案する。
論文 参考訳(メタデータ) (2022-03-28T14:03:16Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - LCP: A Low-Communication Parallelization Method for Fast Neural Network
Inference in Image Recognition [33.581285906182075]
そこで本研究では, ほぼ独立な複数の枝と狭い枝からなるモデルを用いた低通信並列化手法を提案する。
当社では,AWSインスタンス,Raspberry Pi,PYNQボードという,3つの分散システムにLCPモデルをデプロイしています。
LCPモデルは、オリジナルのモデルと比べて56倍と7倍の平均的なスピードアップを達成し、平均的なスピードアップを33倍に改善することができた。
論文 参考訳(メタデータ) (2020-03-13T19:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。