論文の概要: PowerYOLO: Mixed Precision Model for Hardware Efficient Object Detection with Event Data
- arxiv url: http://arxiv.org/abs/2407.08272v1
- Date: Thu, 11 Jul 2024 08:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:29:17.009607
- Title: PowerYOLO: Mixed Precision Model for Hardware Efficient Object Detection with Event Data
- Title(参考訳): PowerYOLO:イベントデータを用いたハードウェア効率の良い物体検出のための混合精度モデル
- Authors: Dominika Przewlocka-Rus, Tomasz Kryjak, Marek Gorgon,
- Abstract要約: PowerYOLOは、高メモリと計算複雑性のアルゴリズムを小さな低消費電力デバイスに適合させる問題に対して、混合精度のソリューションである。
まず,低消費電力のセンサであるダイナミック・ビジョン・センサ(DVS)をベースとしたシステムを提案する。
次に、4ビット幅のPowers-of-Two(PoT)量子化を提案する。
第3に、そのような解のハードウェアアクセラレーションの効率を高めるために、乗算をビットシフトに置き換える。
- 参考スコア(独自算出の注目度): 0.5461938536945721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of object detection systems in automotive solutions must be as high as possible, with minimal response time and, due to the often battery-powered operation, low energy consumption. When designing such solutions, we therefore face challenges typical for embedded vision systems: the problem of fitting algorithms of high memory and computational complexity into small low-power devices. In this paper we propose PowerYOLO - a mixed precision solution, which targets three essential elements of such application. First, we propose a system based on a Dynamic Vision Sensor (DVS), a novel sensor, that offers low power requirements and operates well in conditions with variable illumination. It is these features that may make event cameras a preferential choice over frame cameras in some applications. Second, to ensure high accuracy and low memory and computational complexity, we propose to use 4-bit width Powers-of-Two (PoT) quantisation for convolution weights of the YOLO detector, with all other parameters quantised linearly. Finally, we embrace from PoT scheme and replace multiplication with bit-shifting to increase the efficiency of hardware acceleration of such solution, with a special convolution-batch normalisation fusion scheme. The use of specific sensor with PoT quantisation and special batch normalisation fusion leads to a unique system with almost 8x reduction in memory complexity and vast computational simplifications, with relation to a standard approach. This efficient system achieves high accuracy of mAP 0.301 on the GEN1 DVS dataset, marking the new state-of-the-art for such compressed model.
- Abstract(参考訳): 自動車ソリューションにおける物体検出システムの性能は、最小限の応答時間で可能な限り高くなければならない。
このようなソリューションを設計する場合、我々は、高メモリのアルゴリズムと計算複雑性を小さな低消費電力デバイスに適合させるという問題という、組み込みビジョンシステムに典型的な課題に直面している。
本稿では,その3つの重要な要素を対象とする混合精度ソリューションPowerYOLOを提案する。
まず,新しいセンサであるダイナミック・ビジョン・センサ(DVS)に基づくシステムを提案する。
イベントカメラが、いくつかのアプリケーションでフレームカメラよりも優先的に選択できるのは、これらの機能である。
第2に,高い精度,低メモリ,計算量を確保するため,YOLO検出器の畳み込み重み付けに4ビット幅のPowers-of-Two(PoT)量子化法を提案する。
最後に、PoT方式を採用し、ビットシフトによる乗算を置き換え、特別な畳み込みバッチ正規化融合方式により、そのような解のハードウェアアクセラレーションの効率を向上する。
PoT量子化と特別なバッチ正規化融合による特定のセンサの使用は、メモリの複雑さを約8倍に減らし、計算を単純化するユニークなシステムをもたらす。
この効率的なシステムは, GEN1 DVSデータセット上でのmAP 0.301の高精度化を実現し, 圧縮モデルに対する新たな最先端性を示す。
関連論文リスト
- PACE: Pacing Operator Learning to Accurate Optical Field Simulation for Complicated Photonic Devices [14.671301859745453]
既存のSOTAアプローチであるNeurOLightは、現実世界の複雑なフォトニックデバイスに対する高忠実度フィールドの予測に苦労している。
長距離モデリング能力の強いクロス軸分解型PACE演算子を提案する。
人間の学習に触発されて、非常に難しいケースのシミュレーションタスクを、段階的に簡単な2つのタスクに分解する。
論文 参考訳(メタデータ) (2024-11-05T22:03:14Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - LEMDA: A Novel Feature Engineering Method for Intrusion Detection in IoT Systems [3.5323691899538137]
モノのインターネット(IoT)システム用の侵入検知システム(IDS)は、AIベースのモデルを使用してセキュアな通信を保証できる。
複雑なモデルには、オーバーフィット、低い解釈可能性、高い計算複雑性といった悪名高い問題がある。
LEMDA (Mean Decrease in Accuracyに基づく光機能工学) と呼ばれる新しい特徴工学手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T11:11:47Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Match and Locate: low-frequency monocular odometry based on deep feature
matching [0.65268245109828]
本稿では,1台のカメラしか必要としないロボットオドメトリーの新たなアプローチを提案する。
アプローチは、深い特徴マッチングモデルを用いて、ビデオストリームの連続フレーム間の画像特徴のマッチングに基づいている。
本研究では,AISG-SLAビジュアルローカライゼーションチャレンジにおける手法の性能評価を行い,計算効率が高く,実装が容易であるにもかかわらず,競合する結果が得られた。
論文 参考訳(メタデータ) (2023-11-16T17:32:58Z) - M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文 参考訳(メタデータ) (2023-05-31T02:34:36Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - MIMC-VINS: A Versatile and Resilient Multi-IMU Multi-Camera
Visual-Inertial Navigation System [44.76768683036822]
視覚慣性ナビゲーションシステムのためのリアルタイム一貫したマルチIMUマルチカメラ(CMU)-VINS推定器を提案する。
効率的な多状態制約フィルタ内では、提案したMIMC-VINSアルゴリズムは、すべてのセンサからの非同期測定を最適に融合する。
提案したMIMC-VINSはモンテカルロシミュレーションと実世界実験の両方で検証されている。
論文 参考訳(メタデータ) (2020-06-28T20:16:08Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。