論文の概要: SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices
- arxiv url: http://arxiv.org/abs/2309.01587v1
- Date: Mon, 4 Sep 2023 13:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:31:57.203841
- Title: SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices
- Title(参考訳): SATAY:FPGAデバイス上でYOLOモデルを高速化するためのストリーミングアーキテクチャツールフロー
- Authors: Alexander Montgomerie-Corcoran, Petros Toupas, Zhewen Yu and
Christos-Savvas Bouganis
- Abstract要約: この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
- 参考スコア(独自算出の注目度): 48.47320494918925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI has led to significant advancements in computer vision and image
processing tasks, enabling a wide range of applications in real-life scenarios,
from autonomous vehicles to medical imaging. Many of those applications require
efficient object detection algorithms and complementary real-time, low latency
hardware to perform inference of these algorithms. The YOLO family of models is
considered the most efficient for object detection, having only a single model
pass. Despite this, the complexity and size of YOLO models can be too
computationally demanding for current edge-based platforms. To address this, we
present SATAY: a Streaming Architecture Toolflow for Accelerating YOLO. This
work tackles the challenges of deploying stateof-the-art object detection
models onto FPGA devices for ultralow latency applications, enabling real-time,
edge-based object detection. We employ a streaming architecture design for our
YOLO accelerators, implementing the complete model on-chip in a deeply
pipelined fashion. These accelerators are generated using an automated
toolflow, and can target a range of suitable FPGA devices. We introduce novel
hardware components to support the operations of YOLO models in a dataflow
manner, and off-chip memory buffering to address the limited on-chip memory
resources. Our toolflow is able to generate accelerator designs which
demonstrate competitive performance and energy characteristics to GPU devices,
and which outperform current state-of-the-art FPGA accelerators.
- Abstract(参考訳): AIはコンピュータビジョンと画像処理タスクの大幅な進歩をもたらし、自動運転車から医療画像まで、現実のシナリオにおける幅広い応用を可能にした。
これらのアプリケーションの多くは、これらのアルゴリズムの推論を実行するために、効率的なオブジェクト検出アルゴリズムと補完的なリアルタイム低レイテンシハードウェアを必要とする。
YOLOモデルは1つのモデルパスしか持たないため、オブジェクト検出において最も効率的であると考えられている。
それにもかかわらず、現在のエッジベースのプラットフォームでは、YOLOモデルの複雑さとサイズが計算的に要求されすぎる可能性がある。
これを解決するために、私たちはSATAY: Streaming Architecture Toolflow for YOLOを紹介します。
この作業は、超低レイテンシアプリケーションのためにFPGAデバイスに最先端のオブジェクト検出モデルをデプロイするという課題に対処し、リアルタイムのエッジベースのオブジェクト検出を可能にする。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
これらのアクセラレータは自動ツールフローを使用して生成され、適切なFPGAデバイスの範囲をターゲットにすることができる。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
ツールフローはGPUデバイスと競合する性能とエネルギー特性を示すアクセラレータ設計を生成でき、現在のFPGAアクセラレータよりも優れています。
関連論文リスト
- MODIPHY: Multimodal Obscured Detection for IoT using PHantom
Convolution-Enabled Faster YOLO [11.445187704250033]
YOLOファントム(YOLO Phantom)は、世界最小のYOLOモデルの一つ。
最新の YOLOv8n モデルに匹敵する精度を実現している。
パラメータとモデルサイズを同時に43%削減します。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - fpgaHART: A toolflow for throughput-oriented acceleration of 3D CNNs for
HAR onto FPGAs [10.385864925381384]
本研究では,人間行動認識のための3次元CNNモデルのFPGAデバイスへのマッピングを最適化するツールフローを提案する。
提案システムでは、SDFグラフを用いて設計をモデル化し、設計空間の拡大と探索のための変換を導入する。
複数のFPGAデバイス上で提案したツールフローを用いて,様々な3D CNNモデルの評価を行い,その性能向上の可能性を示した。
論文 参考訳(メタデータ) (2023-05-31T14:30:17Z) - FMM-X3D: FPGA-based modeling and mapping of X3D for Human Action
Recognition [10.385864925381384]
本稿では,人間行動認識の最先端モデルであるX3DをFPGAデバイスにマッピングする問題に対処する。
提案するツールフローは,FPGAデバイスの利用可能なリソースとオフチップメモリ特性を考慮した最適化ストリームベースハードウェアシステムを生成する。
論文 参考訳(メタデータ) (2023-05-29T11:17:51Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Distance-Weighted Graph Neural Networks on FPGAs for Real-Time Particle
Reconstruction in High Energy Physics [11.125632758828266]
FPGA上で1$mumathrms未満のレイテンシで実行できる距離重み付きグラフネットワークの設計方法について論じる。
本研究では,粒子衝突型加速器で動作する次世代熱量計における粒子の再構成と同定に関連する代表的課題について考察する。
我々は、圧縮されたモデルをファームウェアに変換し、FPGA上で実装する。
論文 参考訳(メタデータ) (2020-08-08T21:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。