論文の概要: SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices
- arxiv url: http://arxiv.org/abs/2309.01587v1
- Date: Mon, 4 Sep 2023 13:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:31:57.203841
- Title: SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices
- Title(参考訳): SATAY:FPGAデバイス上でYOLOモデルを高速化するためのストリーミングアーキテクチャツールフロー
- Authors: Alexander Montgomerie-Corcoran, Petros Toupas, Zhewen Yu and
Christos-Savvas Bouganis
- Abstract要約: この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
- 参考スコア(独自算出の注目度): 48.47320494918925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI has led to significant advancements in computer vision and image
processing tasks, enabling a wide range of applications in real-life scenarios,
from autonomous vehicles to medical imaging. Many of those applications require
efficient object detection algorithms and complementary real-time, low latency
hardware to perform inference of these algorithms. The YOLO family of models is
considered the most efficient for object detection, having only a single model
pass. Despite this, the complexity and size of YOLO models can be too
computationally demanding for current edge-based platforms. To address this, we
present SATAY: a Streaming Architecture Toolflow for Accelerating YOLO. This
work tackles the challenges of deploying stateof-the-art object detection
models onto FPGA devices for ultralow latency applications, enabling real-time,
edge-based object detection. We employ a streaming architecture design for our
YOLO accelerators, implementing the complete model on-chip in a deeply
pipelined fashion. These accelerators are generated using an automated
toolflow, and can target a range of suitable FPGA devices. We introduce novel
hardware components to support the operations of YOLO models in a dataflow
manner, and off-chip memory buffering to address the limited on-chip memory
resources. Our toolflow is able to generate accelerator designs which
demonstrate competitive performance and energy characteristics to GPU devices,
and which outperform current state-of-the-art FPGA accelerators.
- Abstract(参考訳): AIはコンピュータビジョンと画像処理タスクの大幅な進歩をもたらし、自動運転車から医療画像まで、現実のシナリオにおける幅広い応用を可能にした。
これらのアプリケーションの多くは、これらのアルゴリズムの推論を実行するために、効率的なオブジェクト検出アルゴリズムと補完的なリアルタイム低レイテンシハードウェアを必要とする。
YOLOモデルは1つのモデルパスしか持たないため、オブジェクト検出において最も効率的であると考えられている。
それにもかかわらず、現在のエッジベースのプラットフォームでは、YOLOモデルの複雑さとサイズが計算的に要求されすぎる可能性がある。
これを解決するために、私たちはSATAY: Streaming Architecture Toolflow for YOLOを紹介します。
この作業は、超低レイテンシアプリケーションのためにFPGAデバイスに最先端のオブジェクト検出モデルをデプロイするという課題に対処し、リアルタイムのエッジベースのオブジェクト検出を可能にする。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
これらのアクセラレータは自動ツールフローを使用して生成され、適切なFPGAデバイスの範囲をターゲットにすることができる。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
ツールフローはGPUデバイスと競合する性能とエネルギー特性を示すアクセラレータ設計を生成でき、現在のFPGAアクセラレータよりも優れています。
関連論文リスト
- Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices [0.0]
YOLOv8 (Nano, Small, Medium), EfficientDet Lite (Lite0, Lite1, Lite2), SSD (SSD MobileNet V1, SSDLite MobileDet) など,最先端のオブジェクト検出モデルの評価を行った。
これらのモデルをRaspberry Pi 3、4、5、TPUアクセラレーター、Jetson Orin Nanoといった一般的なエッジデバイスにデプロイし、エネルギー消費、推論時間、平均精度(mAP)といった重要なパフォーマンス指標を収集しました。
この結果から,SSD MobileNet V1などの低mAPモデルの方がエネルギー効率が高く,高速であることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T10:56:49Z) - What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - An Efficient Real-Time Object Detection Framework on Resource-Constricted Hardware Devices via Software and Hardware Co-design [11.857890662690448]
本稿では,ハードウェアとソフトウェアの共同設計による資源制約のあるハードウェアデバイス上での効率的なリアルタイムオブジェクト検出フレームワークを提案する。
その結果,提案手法はモデルサイズを大幅に削減し,実行時間を短縮できることがわかった。
論文 参考訳(メタデータ) (2024-08-02T18:47:11Z) - SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction [6.800641017055453]
本稿では,計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入する。
提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。
SMOFは、競争力があり、場合によっては、コンピュータビジョンタスクの範囲で最先端のパフォーマンスを提供する能力を示した。
論文 参考訳(メタデータ) (2024-03-27T18:12:24Z) - MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO [10.183459286746196]
YOLO Phantomは、史上最小のYOLOモデルのひとつです。
YOLO Phantomは最新のYOLOv8nモデルと同等の精度を実現し、パラメータとモデルサイズを同時に削減する。
実際の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証され、AWSベースの通知エンドポイントにシームレスに接続される。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。