論文の概要: GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.07484v1
- Date: Wed, 14 Aug 2024 11:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:34:28.369372
- Title: GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution
- Title(参考訳): GRFormer:軽量シングルイメージ超解像のためのグループ化された残像自己認識
- Authors: Yuzhen Li, Zehang Deng, Yuxin Cao, Lihua Liu,
- Abstract要約: Grouped Residual Self-Attention (GRSA) は2つの基本コンポーネントに特化している。
ES-RPBは、位置情報を表現する能力を改善するために、元の相対位置バイアスの代替となる。
実験では、GRFormerは、$times$2、$times$3、$times$4 SISRタスクに対して、最先端のトランスフォーマーベースのメソッドを上回っている。
- 参考スコア(独自算出の注目度): 2.312414367096445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works have shown that reducing parameter overhead and computations for transformer-based single image super-resolution (SISR) models (e.g., SwinIR) usually leads to a reduction of performance. In this paper, we present GRFormer, an efficient and lightweight method, which not only reduces the parameter overhead and computations, but also greatly improves performance. The core of GRFormer is Grouped Residual Self-Attention (GRSA), which is specifically oriented towards two fundamental components. Firstly, it introduces a novel grouped residual layer (GRL) to replace the Query, Key, Value (QKV) linear layer in self-attention, aimed at efficiently reducing parameter overhead, computations, and performance loss at the same time. Secondly, it integrates a compact Exponential-Space Relative Position Bias (ES-RPB) as a substitute for the original relative position bias to improve the ability to represent position information while further minimizing the parameter count. Extensive experimental results demonstrate that GRFormer outperforms state-of-the-art transformer-based methods for $\times$2, $\times$3 and $\times$4 SISR tasks, notably outperforming SOTA by a maximum PSNR of 0.23dB when trained on the DIV2K dataset, while reducing the number of parameter and MACs by about \textbf{60\%} and \textbf{49\% } in only self-attention module respectively. We hope that our simple and effective method that can easily applied to SR models based on window-division self-attention can serve as a useful tool for further research in image super-resolution. The code is available at \url{https://github.com/sisrformer/GRFormer}.
- Abstract(参考訳): 従来の研究では、トランスフォーマーベースのシングルイメージ超解像(SISR)モデル(例えばSwinIR)のパラメータオーバーヘッドの削減と計算が、通常、性能の低下につながることが示されている。
本稿では,パラメータのオーバーヘッドと計算量を削減するだけでなく,性能も大幅に向上する,効率的で軽量なGRFormerを提案する。
GRFormer の中核は Grouped Residual Self-Attention (GRSA) である。
まず、クエリ、キー、バリュー(QKV)線形層を自己注意で置き換える、新しいグループ化された残留層(GRL)を導入する。
第二に、コンパクトな指数空間相対位置バイアス(ES-RPB)を元の相対位置バイアスの代用として統合し、パラメータ数をさらに最小化しながら位置情報を表現する能力を向上させる。
GRFormerは、DIV2Kデータセットでトレーニングされた場合、最大PSNR0.23dBでSOTAを上回り、パラメータとMACの数を約 \textbf{60\%} と \textbf{49\% } でそれぞれ減らした。
ウィンドウ分割自己アテンションに基づくSRモデルに容易に適用可能な,単純かつ効果的な手法が,画像超解像のさらなる研究に役立つことを期待する。
コードは \url{https://github.com/sisrformer/GRFormer} で公開されている。
関連論文リスト
- All You Need is an Improving Column: Enhancing Column Generation for Parallel Machine Scheduling via Transformers [0.0]
本稿では,並列マシンスケジューリング問題に対するニューラルネットワーク強化カラム生成(CG)アプローチを提案する。
ニューラルネットワークをオフラインでトレーニングし、推論モードで使用することにより、負の削減コスト列を予測することにより、計算時間を大幅に削減できる。
大規模インスタンスの場合,提案手法は目標値の80%を500秒未満で改善する。
論文 参考訳(メタデータ) (2024-10-21T02:53:37Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - In defense of parameter sharing for model-compression [38.80110838121722]
ランダム化パラメータ共有(RPS)法は、トレーニング開始時にモデル圧縮の牽引力を得た。
RPSは、より小さなモデルと、中程度に情報を得たプルーニング戦略を一貫して上回っている。
本稿では, RPS モデルへのパラダイムシフトを論じる。
論文 参考訳(メタデータ) (2023-10-17T22:08:01Z) - Towards an Effective and Efficient Transformer for Rain-by-snow Weather
Removal [23.224536745724077]
降雨による除雪は、降雪や降雪の粒子を除去することを目的とした、気象劣化画像復元の特別課題である。
本稿では,この課題に対処する効率的かつ効率的な変換器であるRSFormerを提案する。
RSFormerは、他の復元方法と比較して、パフォーマンスと時間消費の最良のトレードオフを達成する。
論文 参考訳(メタデータ) (2023-04-06T04:39:23Z) - SRFormerV2: Taking a Closer Look at Permuted Self-Attention for Image Super-Resolution [74.48610723198514]
SRFormerは、大きなウィンドウの自己注意の恩恵を享受できる、単純だが斬新な方法である。
我々のSRFormerはUrban100データセットで33.86dBのPSNRスコアを獲得し、SwinIRよりも0.46dB高い。
実験により, SRFormerV2と呼ばれるスケールモデルにより, 結果がさらに向上し, 最先端の達成が期待できることがわかった。
論文 参考訳(メタデータ) (2023-03-17T02:38:44Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。
本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文 参考訳(メタデータ) (2021-01-26T04:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。