論文の概要: Flexible and Fully Quantized Ultra-Lightweight TinyissimoYOLO for
Ultra-Low-Power Edge Systems
- arxiv url: http://arxiv.org/abs/2307.05999v1
- Date: Wed, 12 Jul 2023 08:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:50:30.009424
- Title: Flexible and Fully Quantized Ultra-Lightweight TinyissimoYOLO for
Ultra-Low-Power Edge Systems
- Title(参考訳): 超低消費電力エッジシステムのためのフレキシブル・フル量子化チニシモヨロ
- Authors: Julian Moosmann, Hanna Mueller, Nicky Zimmerman, Georg Rutishauser,
Luca Benini, Michele Magno
- Abstract要約: 我々は最先端の超低消費電力極端プラットフォームにTinyissimoYOLOの変種をデプロイする。
本稿では, 遅延, エネルギー効率, ワークロードを効率的に並列化する能力について比較する。
- 参考スコア(独自算出の注目度): 13.266626571886354
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper deploys and explores variants of TinyissimoYOLO, a highly flexible
and fully quantized ultra-lightweight object detection network designed for
edge systems with a power envelope of a few milliwatts. With experimental
measurements, we present a comprehensive characterization of the network's
detection performance, exploring the impact of various parameters, including
input resolution, number of object classes, and hidden layer adjustments. We
deploy variants of TinyissimoYOLO on state-of-the-art ultra-low-power extreme
edge platforms, presenting an in-depth a comparison on latency, energy
efficiency, and their ability to efficiently parallelize the workload. In
particular, the paper presents a comparison between a novel parallel RISC-V
processor (GAP9 from Greenwaves) with and without use of its on-chip hardware
accelerator, an ARM Cortex-M7 core (STM32H7 from ST Microelectronics), two ARM
Cortex-M4 cores (STM32L4 from STM and Apollo4b from Ambiq), and a multi-core
platform with a CNN hardware accelerator (Analog Devices MAX78000).
Experimental results show that the GAP9's hardware accelerator achieves the
lowest inference latency and energy at 2.12ms and 150uJ respectively, which is
around 2x faster and 20% more efficient than the next best platform, the
MAX78000. The hardware accelerator of GAP9 can even run an increased resolution
version of TinyissimoYOLO with 112x112 pixels and 10 detection classes within
3.2ms, consuming 245uJ. To showcase the competitiveness of a versatile
general-purpose system we also deployed and profiled a multi-core
implementation on GAP9 at different operating points, achieving 11.3ms with the
lowest-latency and 490uJ with the most energy-efficient configuration. With
this paper, we demonstrate the suitability and flexibility of TinyissimoYOLO on
state-of-the-art detection datasets for real-time ultra-low-power edge
inference.
- Abstract(参考訳): 本稿では,非常に柔軟で完全に量子化された超軽量物体検出ネットワークであるtinyissimoyoloを,数ミリワットの電力包絡を有するエッジシステム向けに設計した。
実験により,ネットワークの検知性能を包括的に評価し,入力解像度,オブジェクトクラス数,隠蔽層調整など,様々なパラメータの影響について検討した。
我々は、TinyissimoYOLOの変種を最先端の超低消費電力極端プラットフォームにデプロイし、レイテンシ、エネルギー効率、ワークロードを効率的に並列化する能力の詳細な比較を示す。
特に、新しい並列RISC-Vプロセッサ(グリーンウェーブのGAP9)と、そのオンチップハードウェアアクセラレータの使用の有無を比較し、ARM Cortex-M7コア(STマイクロエレクトロニクスのSTM32H7)、2つのARM Cortex-M4コア(STMのSTM32L4とAmbiqのApollo4b)とCNNハードウェアアクセラレータのマルチコアプラットフォーム(Analog Devices MAX78000)を比較した。
実験の結果、GAP9のハードウェアアクセラレータは、それぞれ2.12msと150uJで最低推論遅延とエネルギーを達成しており、これは次の最高のプラットフォームであるMAX78000よりも約2倍高速で20%効率が高い。
GAP9のハードウェアアクセラレータは、TinyissimoYOLOの112x112ピクセルと10の検出クラスを3.2msで実行し、245uJを消費する。
また,多目的汎用システムの競争力を示すため,GAP9のマルチコア実装を異なる動作点に展開・プロファイルし,低レイテンシで11.3ms,エネルギー効率で490uJを実現した。
本稿では,リアルタイム超低消費電力エッジ推論のための最先端検出データセットに対するTinyissimoYOLOの適合性と柔軟性を示す。
関連論文リスト
- PowerYOLO: Mixed Precision Model for Hardware Efficient Object Detection with Event Data [0.5461938536945721]
PowerYOLOは、高メモリと計算複雑性のアルゴリズムを小さな低消費電力デバイスに適合させる問題に対して、混合精度のソリューションである。
まず,低消費電力のセンサであるダイナミック・ビジョン・センサ(DVS)をベースとしたシステムを提案する。
次に、4ビット幅のPowers-of-Two(PoT)量子化を提案する。
第3に、そのような解のハードウェアアクセラレーションの効率を高めるために、乗算をビットシフトに置き換える。
論文 参考訳(メタデータ) (2024-07-11T08:17:35Z) - MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO [10.183459286746196]
YOLO Phantomは、史上最小のYOLOモデルのひとつです。
YOLO Phantomは最新のYOLOv8nモデルと同等の精度を実現し、パラメータとモデルサイズを同時に削減する。
実際の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証され、AWSベースの通知エンドポイントにシームレスに接続される。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - Enhancing Energy-efficiency by Solving the Throughput Bottleneck of LSTM
Cells for Embedded FPGAs [22.293462679874008]
本研究は,エンドデバイス上でのエネルギー効率を考慮した新しいLSTMセル最適化を提案する。
少なくとも5.4$times$高速スループットと1.37$times$既存の手法よりもエネルギー効率が高い。
論文 参考訳(メタデータ) (2023-10-04T08:42:10Z) - EpiDeNet: An Energy-Efficient Approach to Seizure Detection for Embedded
Systems [9.525786920713763]
本稿では,新しい軽量な発作検出ネットワークであるEpiDeNetを紹介する。
SSWCE(Sensitivity-Specificity Weighted Cross-Entropy)は、感度と特異性を組み込んだ新たな損失関数である。
SSWCE損失と組み合わされた3ウィンドウの多数決に基づく平滑化方式は、偽陽性を1.18FP/hに3倍減少させる。
論文 参考訳(メタデータ) (2023-08-28T11:29:51Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - High-Throughput, High-Performance Deep Learning-Driven Light Guide Plate
Surface Visual Quality Inspection Tailored for Real-World Manufacturing
Environments [75.66288398180525]
光導光板は、医療用照明器具からバックライトテレビディスプレイまで幅広い用途で広く利用されている光学部品である。
本研究では,光ガイド板表面の視覚的品質検査(VQI)を現実の製造環境に適した,完全に統合された,高性能なディープラーニング駆動ワークフローを提案する。
完全統合VQIシステム内のエッジコンピューティング上でのVQIの自動化を実現するため、高コンパクトな深層アンチエイリアス型アテンションコンデンサニューラルネットワーク(LightDefectNetと呼ぶ)が開発された。
LightDetectNetが検出精度を実現する実験
論文 参考訳(メタデータ) (2022-12-20T20:11:11Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。