論文の概要: A Real Time Super Resolution Accelerator with Tilted Layer Fusion
- arxiv url: http://arxiv.org/abs/2205.03997v1
- Date: Mon, 9 May 2022 01:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 00:56:55.944733
- Title: A Real Time Super Resolution Accelerator with Tilted Layer Fusion
- Title(参考訳): Tilted Layer Fusion を用いたリアルタイム超解像加速器
- Authors: An-Jung Huang, Kai-Chieh Hsu and Tian-Sheuan Chang
- Abstract要約: 本稿では,外部DRAM帯域幅を92%削減し,102KBのオンチップメモリを必要とする,傾斜層融合方式のリアルタイムハードウェアアクセラレータを提案する。
40nmのCMOSプロセスで実装された設計は、600MHzで動作する場合、1920x1080@60fpsのスループットと544.3Kゲート数を実現している。
- 参考スコア(独自算出の注目度): 0.10547353841674209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning based superresolution achieves high-quality results, but its
heavy computational workload, large buffer, and high external memory bandwidth
inhibit its usage in mobile devices. To solve the above issues, this paper
proposes a real-time hardware accelerator with the tilted layer fusion method
that reduces the external DRAM bandwidth by 92\% and just needs 102KB on-chip
memory. The design implemented with a 40nm CMOS process achieves
1920x1080@60fps throughput with 544.3K gate count when running at 600MHz; it
has higher throughput and lower area cost than previous designs.
- Abstract(参考訳): ディープラーニングベースのスーパーレゾリューションは高品質な結果を得るが、その重い計算負荷、大きなバッファ、高い外部メモリ帯域幅はモバイルデバイスでの使用を阻害する。
そこで本研究では,外部DRAMの帯域幅を92\%削減し,102KBのオンチップメモリを必要とする,傾き層融合方式のリアルタイムハードウェアアクセラレータを提案する。
40nmのCMOSプロセスで実装された設計は、600MHzで動作する場合、1920x1080@60fpsのスループットと544.3Kゲート数を実現している。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference [47.043257902725294]
本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。
一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
論文 参考訳(メタデータ) (2024-06-17T15:55:08Z) - ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with
Decoupled Asymmetric Convolution [0.0502254944841629]
深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。
本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。
ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36%の複雑さを必要とする。
論文 参考訳(メタデータ) (2023-08-30T07:23:32Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic [1.553339756999288]
本稿では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。
メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合する。
これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。
論文 参考訳(メタデータ) (2022-05-02T09:58:39Z) - BSRA: Block-based Super Resolution Accelerator with Hardware Efficient
Pixel Attention [0.10547353841674209]
本稿では,ハードウェア効率のよいハードウェアアクセラレーションを提案する。
最終的な実装は、TSMC 40nm CMOSプロセスで毎秒30フレームのフルHD画像再構成をサポートすることができる。
論文 参考訳(メタデータ) (2022-05-02T09:56:29Z) - Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。
生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。
我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文 参考訳(メタデータ) (2021-11-01T15:11:01Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - Low Latency CMOS Hardware Acceleration for Fully Connected Layers in
Deep Neural Networks [1.9036571490366496]
FCアクセラレータFC-ACCLは、行列ベクトル乗算のための1288x8または16x16の処理要素に基づいている。
この設計は、大きなFC6層の遅延をAlexNetで60%削減し、代替のEIEソリューションと比較してVGG16で3パーセント削減することができる。
論文 参考訳(メタデータ) (2020-11-25T15:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。