論文の概要: ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with
Decoupled Asymmetric Convolution
- arxiv url: http://arxiv.org/abs/2308.15807v1
- Date: Wed, 30 Aug 2023 07:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:31:40.291927
- Title: ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with
Decoupled Asymmetric Convolution
- Title(参考訳): acnpu:非対称畳み込みを分離した4.75tops/w 1080p@30fps超解像度加速器
- Authors: Tun-Hao Yang, and Tian-Sheuan Chang
- Abstract要約: 深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。
本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。
ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36%の複雑さを必要とする。
- 参考スコア(独自算出の注目度): 0.0502254944841629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-driven superresolution (SR) outperforms traditional techniques
but also faces the challenge of high complexity and memory bandwidth. This
challenge leads many accelerators to opt for simpler and shallow models like
FSRCNN, compromising performance for real-time needs, especially for
resource-limited edge devices. This paper proposes an energy-efficient SR
accelerator, ACNPU, to tackle this challenge. The ACNPU enhances image quality
by 0.34dB with a 27-layer model, but needs 36\% less complexity than FSRCNN,
while maintaining a similar model size, with the \textit{decoupled asymmetric
convolution and split-bypass structure}. The hardware-friendly 17K-parameter
model enables \textit{holistic model fusion} instead of localized layer fusion
to remove external DRAM access of intermediate feature maps. The on-chip memory
bandwidth is further reduced with the \textit{input stationary flow} and
\textit{parallel-layer execution} to reduce power consumption. Hardware is
regular and easy to control to support different layers by \textit{processing
elements (PEs) clusters with reconfigurable input and uniform data flow}. The
implementation in the 40 nm CMOS process consumes 2333 K gate counts and 198KB
SRAMs. The ACNPU achieves 31.7 FPS and 124.4 FPS for x2 and x4 scales Full-HD
generation, respectively, which attains 4.75 TOPS/W energy efficiency.
- Abstract(参考訳): 深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。
この課題は、多くのアクセラレーターがFSRCNNのようなシンプルで浅いモデルを選択し、特にリソース制限エッジデバイスにおけるリアルタイムニーズのパフォーマンスを向上させる。
本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。
ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36倍の複雑さが必要であり、類似したモデルサイズを維持しながら、 \textit{decoupled asymmetric convolution and split-bypass structure} を持つ。
ハードウェアフレンドリーな17Kパラメータモデルは、局所層融合の代わりに \textit{holistic model fusion} を可能にし、中間特徴写像の外部DRAMアクセスを除去する。
オンチップメモリ帯域幅は、電力消費を減らすために \textit{input stationary flow} と \textit{parallel-layer execution} によってさらに削減される。
ハードウェアはレギュラーで、再設定可能な入力と均一なデータフローを備えた‘textit{processing element(PE)クラスタ’によって、さまざまなレイヤをサポートするために簡単に制御できる。
40nmのCMOSプロセスの実装は2333Kのゲート数と198KBのSRAMを消費する。
ACNPUは、x2とx4のそれぞれ31.7 FPSと124.4 FPSを達成し、フルHD生成を実現し、エネルギー効率は4.75 TOPS/Wに達する。
関連論文リスト
- Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT
Edge Nodes [12.99136544903102]
ランダムフォレスト (RFs) やグラディエント・ブースティング (GBTs) のような決定木アンサンブルは、その複雑さが比較的低いため、この作業に特に適している。
本稿では、遅延/エネルギー目標と処理された入力の複雑さの両方に基づいて実行された木数を調整する動的アンサンブルの使用を提案する。
我々は、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイすることに重点を置いている。
論文 参考訳(メタデータ) (2023-06-16T11:59:18Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - BSRA: Block-based Super Resolution Accelerator with Hardware Efficient
Pixel Attention [0.10547353841674209]
本稿では,ハードウェア効率のよいハードウェアアクセラレーションを提案する。
最終的な実装は、TSMC 40nm CMOSプロセスで毎秒30フレームのフルHD画像再構成をサポートすることができる。
論文 参考訳(メタデータ) (2022-05-02T09:56:29Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。