論文の概要: Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models
- arxiv url: http://arxiv.org/abs/2211.11647v1
- Date: Mon, 21 Nov 2022 17:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:22:05.656137
- Title: Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models
- Title(参考訳): 高速物体検出シングルショットマルチボックスディープラーニングモデルを用いたグラフバンチとトランク検出のためのエッジコンピューティングデバイスのベンチマーク
- Authors: Sandro Costa Magalh\~aes and Filipe Neves Santos and Pedro Machado and
Ant\'onio Paulo Moreira and Jorge Dias
- Abstract要約: この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
- 参考スコア(独自算出の注目度): 2.1922186455344796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: Visual perception enables robots to perceive the environment. Visual
data is processed using computer vision algorithms that are usually
time-expensive and require powerful devices to process the visual data in
real-time, which is unfeasible for open-field robots with limited energy. This
work benchmarks the performance of different heterogeneous platforms for object
detection in real-time. This research benchmarks three architectures: embedded
GPU -- Graphical Processing Units (such as NVIDIA Jetson Nano 2 GB and 4 GB,
and NVIDIA Jetson TX2), TPU -- Tensor Processing Unit (such as Coral Dev Board
TPU), and DPU -- Deep Learning Processor Unit (such as in AMD-Xilinx ZCU104
Development Board, and AMD-Xilinx Kria KV260 Starter Kit). Method: The authors
used the RetinaNet ResNet-50 fine-tuned using the natural VineSet dataset.
After the trained model was converted and compiled for target-specific hardware
formats to improve the execution efficiency. Conclusions and Results: The
platforms were assessed in terms of performance of the evaluation metrics and
efficiency (time of inference). Graphical Processing Units (GPUs) were the
slowest devices, running at 3 FPS to 5 FPS, and Field Programmable Gate Arrays
(FPGAs) were the fastest devices, running at 14 FPS to 25 FPS. The efficiency
of the Tensor Processing Unit (TPU) is irrelevant and similar to NVIDIA Jetson
TX2. TPU and GPU are the most power-efficient, consuming about 5W. The
performance differences, in the evaluation metrics, across devices are
irrelevant and have an F1 of about 70 % and mean Average Precision (mAP) of
about 60 %.
- Abstract(参考訳): 目的:視覚知覚によりロボットは環境を知覚することができる。
視覚データはコンピュータビジョンのアルゴリズムで処理されるが、それは通常、時間を要するもので、視覚データをリアルタイムに処理するために強力なデバイスを必要とする。
この研究は、オブジェクト検出のための異なる異種プラットフォームの性能をリアルタイムにベンチマークする。
組み込みGPU - グラフィカル処理ユニット(NVIDIA Jetson Nano 2 GB、4 GB、NVIDIA Jetson TX2)、TPU - テンソル処理ユニット(Coral Dev Board TPUなど)、DPU - ディープラーニングプロセッサユニット(AMD-Xilinx ZCU104 Development BoardやAMD-Xilinx Kria KV260 Starter Kitなど)の3つのアーキテクチャをベンチマークする。
方法:著者らは、自然なVineSetデータセットを使用して、RetinaNet ResNet-50を微調整した。
トレーニングされたモデルが変換され、ターゲット固有のハードウェアフォーマットにコンパイルされ、実行効率が向上した。
結論と結果: 評価指標と効率(推論時間)のパフォーマンスの観点から, プラットフォームの評価を行った。
グラフィック処理ユニット(GPU)は3 FPSから5 FPSで動作し、フィールドプログラマブルゲートアレイ(FPGA)は14 FPSから25 FPSで動作する最も遅いデバイスであった。
テンソルプロセッシングユニット(TPU)の効率は無関係であり、NVIDIA Jetson TX2と類似している。
TPUとGPUは電力効率が最も高く、約5Wを消費する。
評価指標では、デバイス間の性能差は無関係であり、F1は約70%、平均精度(mAP)は約60%である。
関連論文リスト
- Fast Object Detection with a Machine Learning Edge Device [0.0]
本研究は,コンピュータビジョンを備えた組込みシステムに統合された低コストエッジデバイスについて検討する。
本研究の主な目的は、推論時間と低消費電力化である。
GoogleのCoralブランドであるEdge TPUデバイスの最終選択に、多くの情報が貢献している。
論文 参考訳(メタデータ) (2024-10-05T14:37:58Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Benchmarking GPU and TPU Performance with Graph Neural Networks [0.0]
この研究は、現実のパターン認識問題を解決するために開発されたグラフニューラルネットワーク(GNN)を用いてGPUとTPUのパフォーマンストレーニングを分析し、比較する。
スパースデータに作用する新しいモデルのクラスを特徴付けることは、ディープラーニングライブラリや将来のAIアクセラレータの設計を最適化するのに有効である。
論文 参考訳(メタデータ) (2022-10-21T21:03:40Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Evaluation of Thermal Imaging on Embedded GPU Platforms for Application
in Vehicular Assistance Systems [0.5156484100374058]
本研究は、スマートで安全な車両用サーマルオブジェクト検出のリアルタイム性能を評価することに焦点を当てた。
35,000以上の異なるフレームからなる新しい大規模熱データセットを取得する。
トレーニングネットワークの有効性は、様々な定量的指標を用いて、広範なテストデータに基づいて検証される。
論文 参考訳(メタデータ) (2022-01-05T15:36:25Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and
CUDA Devices [0.36748639131154304]
FPGAは長い間、高性能コンピューティングが可能な唯一の処理ハードウェアであった。
最近のGPUベースのシステムでは、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。
ARMおよびDJI対応デバイス上でのリアルタイムな組み込みステレオ処理手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T07:29:25Z) - A Simple Model for Portable and Fast Prediction of Execution Time and
Power Consumption of GPU Kernels [2.9853894456071077]
このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムなフォレストに基づいて構築されている。
クロスバリデーションを用いたモデル性能の評価では、中央値平均パーセンテージエラー(MAPE)は8.86-52.00%と1.84-2.94%で、それぞれ5つのGPUで電力予測を行う。
論文 参考訳(メタデータ) (2020-01-20T13:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。