論文の概要: FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge
- arxiv url: http://arxiv.org/abs/2311.03390v1
- Date: Sat, 4 Nov 2023 10:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:27:43.598941
- Title: FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge
- Title(参考訳): FPGA-QHAR:エッジ上での人間の行動認識のためのスループット最適化
- Authors: Azzam Alhussain and Mingjie Lin
- Abstract要約: 本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
- 参考スコア(独自算出の注目度): 0.6254873489691849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating Human Action Recognition (HAR) efficiently for real-time
surveillance and robotic systems on edge chips remains a challenging research
field, given its high computational and memory requirements. This paper
proposed an integrated end-to-end HAR scalable HW/SW accelerator co-design
based on an enhanced 8-bit quantized Two-Stream SimpleNet-PyTorch CNN
architecture. Our network accelerator was trained on UCF101 and UCF24 datasets
and implemented on edge SoC-FPGA. Our development uses partially streaming
dataflow architecture to achieve higher throughput versus network design and
resource utilization trade-off. We also fused all convolutional, batch-norm,
and ReLU operations into a single homogeneous layer and utilized the
Lucas-Kanade motion flow method to enable a high parallelism accelerator design
and optimized on-chip engine computing.Furthermore, our proposed methodology
achieved nearly 81% prediction accuracy with an approximately 24 FPS real-time
inference throughput at 187MHz on ZCU104, which is 1.7x - 1.9x higher than the
prior research. Lastly, the designed framework was benchmarked against several
hardware chips for higher throughput and performance measurements and is now
available as an open-source project on GitHub for training and implementation
on edge platforms.
- Abstract(参考訳): エッジチップ上でのリアルタイム監視とロボットシステムのためのHAR(Human Action Recognition)の効率的な高速化は、高い計算とメモリ要求を考えると、依然として困難な研究分野である。
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータ共設計を提案する。
我々のネットワークアクセラレーターは、UCF101とUCF24データセットで訓練され、エッジSoC-FPGAで実装された。
当社の開発では、部分ストリーミングデータフローアーキテクチャを使用して、ネットワーク設計とリソース利用トレードオフよりも高いスループットを実現しています。
我々はまた、全ての畳み込み、バッチノルム、ReLU演算を単一均一層に融合させ、Lucas-Kanade運動流法を用いて高並列性加速器の設計とオンチップエンジンの最適化を実現したが、提案手法は、従来の研究より1.7x-1.9倍高いZCU104上の187MHzのリアルタイム推論スループットで、約81%の予測精度を達成した。
最後に、設計されたフレームワークは、スループットとパフォーマンス測定のためにいくつかのハードウェアチップに対してベンチマークされ、エッジプラットフォームでのトレーニングと実装のためのgithubのオープンソースプロジェクトとして利用できる。
関連論文リスト
- Understanding the Potential of FPGA-Based Spatial Acceleration for Large
Language Model Inference [12.114970711921226]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - Towards real-time and energy efficient Siamese tracking -- a
hardware-software approach [0.0]
我々は、よく知られた完全接続型シームズトラッカー(SiamFC)のハードウェア・ソフトウェア実装を提案する。
我々は、FINNアクセラレーターのための量子化シームズネットワークを開発し、アルゴリズム・加速器の共設計を用いて設計空間探索を行った。
我々のネットワークでは、Zynq UltraScale+MPSoC ZCU104のプログラム可能な論理部で動作し、約50フレーム/秒の処理を、その浮動小数点演算と同等の精度で達成した。
論文 参考訳(メタデータ) (2022-05-21T18:31:07Z) - Hardware-Efficient Deconvolution-Based GAN for Edge Computing [1.5229257192293197]
Generative Adversarial Networks (GAN) は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。
我々は、スケーラブルなストリーミングデータフローアーキテクチャを用いてFPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。
リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。
論文 参考訳(メタデータ) (2022-01-18T11:16:59Z) - Accelerating Markov Random Field Inference with Uncertainty
Quantification [10.825800519362579]
確率的アルゴリズムは従来のプロセッサでは計算コストがかかります
それらの統計的性質、すなわち解釈可能性と不確実量化(UQ)は、魅力的な代替手法である。
マルコフ確率場(MRF)推論のための高スループット加速器を提案する。
また、UQを効率的にサポートするための新しいハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
論文 参考訳(メタデータ) (2021-08-02T00:02:53Z) - Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration [76.35307867016336]
本研究では,深層ニューラルネットワーク設計が推論速度向上の程度に与える影響について検討する。
ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で、マクロアーキテクチャ設計パターンによって推論速度が大幅に変化することを示した。
論文 参考訳(メタデータ) (2021-07-08T23:05:39Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。