論文の概要: GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.07484v1
- Date: Wed, 14 Aug 2024 11:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:34:28.369372
- Title: GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution
- Title(参考訳): GRFormer:軽量シングルイメージ超解像のためのグループ化された残像自己認識
- Authors: Yuzhen Li, Zehang Deng, Yuxin Cao, Lihua Liu,
- Abstract要約: Grouped Residual Self-Attention (GRSA) は2つの基本コンポーネントに特化している。
ES-RPBは、位置情報を表現する能力を改善するために、元の相対位置バイアスの代替となる。
実験では、GRFormerは、$times$2、$times$3、$times$4 SISRタスクに対して、最先端のトランスフォーマーベースのメソッドを上回っている。
- 参考スコア(独自算出の注目度): 2.312414367096445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works have shown that reducing parameter overhead and computations for transformer-based single image super-resolution (SISR) models (e.g., SwinIR) usually leads to a reduction of performance. In this paper, we present GRFormer, an efficient and lightweight method, which not only reduces the parameter overhead and computations, but also greatly improves performance. The core of GRFormer is Grouped Residual Self-Attention (GRSA), which is specifically oriented towards two fundamental components. Firstly, it introduces a novel grouped residual layer (GRL) to replace the Query, Key, Value (QKV) linear layer in self-attention, aimed at efficiently reducing parameter overhead, computations, and performance loss at the same time. Secondly, it integrates a compact Exponential-Space Relative Position Bias (ES-RPB) as a substitute for the original relative position bias to improve the ability to represent position information while further minimizing the parameter count. Extensive experimental results demonstrate that GRFormer outperforms state-of-the-art transformer-based methods for $\times$2, $\times$3 and $\times$4 SISR tasks, notably outperforming SOTA by a maximum PSNR of 0.23dB when trained on the DIV2K dataset, while reducing the number of parameter and MACs by about \textbf{60\%} and \textbf{49\% } in only self-attention module respectively. We hope that our simple and effective method that can easily applied to SR models based on window-division self-attention can serve as a useful tool for further research in image super-resolution. The code is available at \url{https://github.com/sisrformer/GRFormer}.
- Abstract(参考訳): 従来の研究では、トランスフォーマーベースのシングルイメージ超解像(SISR)モデル(例えばSwinIR)のパラメータオーバーヘッドの削減と計算が、通常、性能の低下につながることが示されている。
本稿では,パラメータのオーバーヘッドと計算量を削減するだけでなく,性能も大幅に向上する,効率的で軽量なGRFormerを提案する。
GRFormer の中核は Grouped Residual Self-Attention (GRSA) である。
まず、クエリ、キー、バリュー(QKV)線形層を自己注意で置き換える、新しいグループ化された残留層(GRL)を導入する。
第二に、コンパクトな指数空間相対位置バイアス(ES-RPB)を元の相対位置バイアスの代用として統合し、パラメータ数をさらに最小化しながら位置情報を表現する能力を向上させる。
GRFormerは、DIV2Kデータセットでトレーニングされた場合、最大PSNR0.23dBでSOTAを上回り、パラメータとMACの数を約 \textbf{60\%} と \textbf{49\% } でそれぞれ減らした。
ウィンドウ分割自己アテンションに基づくSRモデルに容易に適用可能な,単純かつ効果的な手法が,画像超解像のさらなる研究に役立つことを期待する。
コードは \url{https://github.com/sisrformer/GRFormer} で公開されている。
関連論文リスト
- Generalized and Efficient 2D Gaussian Splatting for Arbitrary-scale Super-Resolution [10.074968164380314]
Inlicit Neural Representation (INR) は、任意スケール超解法 (ASR) に成功している
各ピクセルをレンダリングするために、何度もクエリするのは計算コストがかかる。
近年,Gaussian Splatting (GS)は3次元タスクの視覚的品質とレンダリング速度の両方において,INRよりも優位性を示している。
論文 参考訳(メタデータ) (2025-01-12T15:14:58Z) - Adaptive Principal Components Allocation with the $\ell_{2,g}$-regularized Gaussian Graphical Model for Efficient Fine-Tuning Large Models [7.6656660956453635]
ガウス図形モデル(GGM)に基づく高速ファインニング(PEFT)手法を提案する。
提案手法の有効性を実証し、トレーニング可能なパラメータを著しく少なくして競合性能を実現する。
論文 参考訳(メタデータ) (2024-12-11T18:11:21Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Towards an Effective and Efficient Transformer for Rain-by-snow Weather
Removal [23.224536745724077]
降雨による除雪は、降雪や降雪の粒子を除去することを目的とした、気象劣化画像復元の特別課題である。
本稿では,この課題に対処する効率的かつ効率的な変換器であるRSFormerを提案する。
RSFormerは、他の復元方法と比較して、パフォーマンスと時間消費の最良のトレードオフを達成する。
論文 参考訳(メタデータ) (2023-04-06T04:39:23Z) - SRFormerV2: Taking a Closer Look at Permuted Self-Attention for Image Super-Resolution [74.48610723198514]
SRFormerは、大きなウィンドウの自己注意の恩恵を享受できる、単純だが斬新な方法である。
我々のSRFormerはUrban100データセットで33.86dBのPSNRスコアを獲得し、SwinIRよりも0.46dB高い。
実験により, SRFormerV2と呼ばれるスケールモデルにより, 結果がさらに向上し, 最先端の達成が期待できることがわかった。
論文 参考訳(メタデータ) (2023-03-17T02:38:44Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。
本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文 参考訳(メタデータ) (2021-01-26T04:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。