論文の概要: Efficient Transformer for Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2108.11084v1
- Date: Wed, 25 Aug 2021 07:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 18:45:04.022316
- Title: Efficient Transformer for Single Image Super-Resolution
- Title(参考訳): 単一画像超解像用高能率変圧器
- Authors: Zhisheng Lu, Hong Liu, Juncheng Li, and Linlin Zhang
- Abstract要約: 高速かつ高精度な画像超解像を実現するための高効率超解像変換器(ESRT)を提案する。
ESRTは、CNNベースのSRネットワークを前面に設計し、深い特徴を抽出するハイブリッドトランスフォーマーである。
提案されたETは、4191MのGPUメモリのみを占有し、パフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 13.234199307504602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single image super-resolution task has witnessed great strides with the
development of deep learning. However, most existing studies focus on building
a more complex neural network with a massive number of layers, bringing heavy
computational cost and memory storage. Recently, as Transformer yields
brilliant results in NLP tasks, more and more researchers start to explore the
application of Transformer in computer vision tasks. But with the heavy
computational cost and high GPU memory occupation of the vision Transformer,
the network can not be designed too deep. To address this problem, we propose a
novel Efficient Super-Resolution Transformer (ESRT) for fast and accurate image
super-resolution. ESRT is a hybrid Transformer where a CNN-based SR network is
first designed in the front to extract deep features. Specifically, there are
two backbones for formatting the ESRT: lightweight CNN backbone (LCB) and
lightweight Transformer backbone (LTB). Among them, LCB is a lightweight SR
network to extract deep SR features at a low computational cost by dynamically
adjusting the size of the feature map. LTB is made up of an efficient
Transformer (ET) with a small GPU memory occupation, which benefited from the
novel efficient multi-head attention (EMHA). In EMHA, a feature split module
(FSM) is proposed to split the long sequence into sub-segments and then these
sub-segments are applied by attention operation. This module can significantly
decrease the GPU memory occupation. Extensive experiments show that our ESRT
achieves competitive results. Compared with the original Transformer which
occupies 16057M GPU memory, the proposed ET only occupies 4191M GPU memory with
better performance.
- Abstract(参考訳): シングルイメージによる超解像タスクは、ディープラーニングの開発で大きな進歩を遂げています。
しかし、既存のほとんどの研究は、大量のレイヤーを持つより複雑なニューラルネットワークの構築に焦点を当てており、計算コストとメモリストレージが重い。
近年、トランスフォーマーがNLPタスクで素晴らしい結果をもたらすにつれて、コンピュータビジョンタスクにおけるトランスフォーマーの適用を探求する研究者が増えている。
しかし、計算コストとビジョントランスフォーマーのGPUメモリ占有率が高いため、ネットワークはそれほど深く設計することはできない。
この問題に対処するため,高速かつ高精度な画像超解像変換器(ESRT)を提案する。
ESRTは、CNNベースのSRネットワークを前面に設計し、深い特徴を抽出するハイブリッドトランスフォーマーである。
具体的には、ESRTのフォーマットには、軽量CNNバックボーン(LCB)と軽量トランスフォーマーバックボーン(LTB)の2つのバックボーンがある。
LCBは、特徴マップのサイズを動的に調整することにより、計算コストの低い深部SR特徴を抽出する軽量SRネットワークである。
LTBは、GPUメモリの占有が少ない効率的なトランスフォーマー(ET)で構成されており、これは新しい効率的なマルチヘッドアテンション(EMHA)の恩恵を受けている。
EMHAでは、長文列をサブセグメントに分割する機能分割モジュール(FSM)を提案し、これらのサブセグメントをアテンション操作により適用する。
このモジュールはGPUメモリの占有を著しく減少させる。
大規模な実験により,ESRTは競争力を発揮することが示された。
16057MのGPUメモリを占有するオリジナルのTransformerと比較すると、ETは4191MのGPUメモリしか使用せず、性能も向上している。
関連論文リスト
- HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - LIPT: Latency-aware Image Processing Transformer [17.802838753201385]
LIPTと呼ばれる遅延対応画像処理変換器を提案する。
我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。
論文 参考訳(メタデータ) (2024-04-09T07:25:30Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Lightweight Structure-aware Transformer Network for VHR Remote Sensing
Image Change Detection [15.391216316828354]
RS画像CDのための軽量構造対応トランス (LSAT) ネットワークを提案する。
まず、線形複雑度を有するクロス次元インタラクティブ自己注意(CISA)モジュールは、視覚変換器におけるバニラ自己注意を置き換えるように設計されている。
第二に、SAEM(Structure-Aware Enhancement Module)は、差分特徴とエッジ詳細情報を強化するために設計されている。
論文 参考訳(メタデータ) (2023-06-03T03:21:18Z) - Reciprocal Attention Mixing Transformer for Lightweight Image Restoration [6.3159191692241095]
本稿では,RAMiT(Reciprocal Attention Mixing Transformer)という軽量画像復元ネットワークを提案する。
二次元(空間とチャネル)の自己アテンションを、異なる数のマルチヘッドと並行して使用する。
超高分解能、カラーデノイング、グレースケールデノナイジング、低照度向上、デラリニングなど、複数の軽量IRタスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-19T06:55:04Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - Lightweight Bimodal Network for Single-Image Super-Resolution via
Symmetric CNN and Recursive Transformer [27.51790638626891]
シングルイメージ・スーパーレゾリューション(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成している。
そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。
具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。
論文 参考訳(メタデータ) (2022-04-28T04:43:22Z) - Self-Calibrated Efficient Transformer for Lightweight Super-Resolution [21.63691922827879]
本稿では,この問題を解決するために,SCET(Self-Calibrated Efficient Transformer)ネットワークを提案する。
SCETのアーキテクチャは、主に自己校正モジュールと効率的なトランスフォーマーブロックで構成されている。
ネットワーク全体の異なる設定に関する総合的な結果を提供する。
論文 参考訳(メタデータ) (2022-04-19T14:20:32Z) - Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めた
ほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。
SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文 参考訳(メタデータ) (2022-03-16T20:10:41Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。