論文の概要: A High-Performance Accelerator for Super-Resolution Processing on
Embedded GPU
- arxiv url: http://arxiv.org/abs/2303.08999v1
- Date: Thu, 16 Mar 2023 00:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:21:29.630893
- Title: A High-Performance Accelerator for Super-Resolution Processing on
Embedded GPU
- Title(参考訳): 組込みGPUにおける超解像処理のための高性能加速器
- Authors: Wenqian Zhao, Qi Sun, Yang Bai, Wenbo Li, Haisheng Zheng, Bei Yu,
Martin D.F. Wong
- Abstract要約: 組み込みデバイス上でのフルスタックSRアクセラレーションフレームワークを実装した。
ディープ辞書学習ベースのSRモデルにおける通信と計算のボトルネックは、完全に取り組まれている。
- 参考スコア(独自算出の注目度): 24.084304913250826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed impressive progress in super-resolution (SR)
processing. However, its real-time inference requirement sets a challenge not
only for the model design but also for the on-chip implementation. In this
paper, we implement a full-stack SR acceleration framework on embedded GPU
devices. The special dictionary learning algorithm used in SR models was
analyzed in detail and accelerated via a novel dictionary selective strategy.
Besides, the hardware programming architecture together with the model
structure is analyzed to guide the optimal design of computation kernels to
minimize the inference latency under the resource constraints. With these novel
techniques, the communication and computation bottlenecks in the deep
dictionary learning-based SR models are tackled perfectly. The experiments on
the edge embedded NVIDIA NX and 2080Ti show that our method outperforms the
state-of-the-art NVIDIA TensorRT significantly, and can achieve real-time
performance.
- Abstract(参考訳): 近年、スーパーレゾリューション(sr)処理の著しい進歩が見られる。
しかし、そのリアルタイム推論要件は、モデル設計だけでなく、オンチップ実装にとっても課題となる。
本稿では,組み込みGPUデバイス上でのフルスタックSRアクセラレーションフレームワークを実装する。
SRモデルで使用される特殊辞書学習アルゴリズムを詳細に解析し,新しい辞書選択戦略により高速化した。
さらに、モデル構造とともにハードウェアプログラミングアーキテクチャを分析し、リソース制約下での推論レイテンシを最小化するために計算カーネルの最適設計を導く。
これらの新しい手法により、深層辞書学習に基づくsrモデルにおけるコミュニケーションと計算のボトルネックが完全に取り組まれる。
NVIDIA NX と 2080Ti のエッジ埋め込み実験により,我々の手法は最先端のNVIDIA TensorRT を著しく上回り,リアルタイム性能を実現することができることを示した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - Benchmarking GPU and TPU Performance with Graph Neural Networks [0.0]
この研究は、現実のパターン認識問題を解決するために開発されたグラフニューラルネットワーク(GNN)を用いてGPUとTPUのパフォーマンストレーニングを分析し、比較する。
スパースデータに作用する新しいモデルのクラスを特徴付けることは、ディープラーニングライブラリや将来のAIアクセラレータの設計を最適化するのに有効である。
論文 参考訳(メタデータ) (2022-10-21T21:03:40Z) - Fast Nearest Convolution for Real-Time Efficient Image Super-Resolution [36.72750683939934]
我々は,NPUに親しみやすい高速最寄りの畳み込みモジュール(NCNet)を備えた単純な平らな畳み込みネットワークを提案し,リアルタイムに信頼性の高い超解像を実現する。
我々のモデルは8ビット量子化で簡単にモバイルデバイスにデプロイでき、すべての主要なモバイルAIアクセラレータと完全に互換性がある。
我々のNCNetは、DIV2K 3xデータセットを用いて訓練し、検証し、他の効率的なSR手法との比較により、NCNetは推論時間が少なくて高い忠実性SR結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:51Z) - Compiler-Aware Neural Architecture Search for On-Mobile Real-time
Super-Resolution [48.13296296287587]
適応SRブロックを用いた深度探索と層間幅探索を行うコンパイラ対応SRニューラルアーキテクチャサーチ(NAS)フレームワークを提案する。
我々は,モバイルプラットフォームのGPU/DSP上でのSR性能と競合する720pの解像度を実現するために,リアルタイムSR推論を実現する。
論文 参考訳(メタデータ) (2022-07-25T23:59:19Z) - Revisiting RCAN: Improved Training for Image Super-Resolution [94.8765153437517]
一般的なRCANモデルを再検討し、SRにおける異なるトレーニングオプションの効果について検討する。
RCAN は CNN をベースとした SR アーキテクチャのほぼすべてにおいて,標準ベンチマークで RCAN 以降のアーキテクチャよりも優れるか,あるいは適合することを示す。
論文 参考訳(メタデータ) (2022-01-27T02:20:11Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。