Fugu-MT 論文翻訳(概要): GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution

論文の概要: GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution

arxiv url: http://arxiv.org/abs/2408.07484v1
Date: Wed, 14 Aug 2024 11:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 13:34:28.369372
Title: GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution
Title（参考訳）: GRFormer:軽量シングルイメージ超解像のためのグループ化された残像自己認識
Authors: Yuzhen Li, Zehang Deng, Yuxin Cao, Lihua Liu,
Abstract要約: Grouped Residual Self-Attention (GRSA) は2つの基本コンポーネントに特化している。 ES-RPBは、位置情報を表現する能力を改善するために、元の相対位置バイアスの代替となる。実験では、GRFormerは、$times$2、$times$3、$times$4 SISRタスクに対して、最先端のトランスフォーマーベースのメソッドを上回っている。
参考スコア（独自算出の注目度）: 2.312414367096445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous works have shown that reducing parameter overhead and computations for transformer-based single image super-resolution (SISR) models (e.g., SwinIR) usually leads to a reduction of performance. In this paper, we present GRFormer, an efficient and lightweight method, which not only reduces the parameter overhead and computations, but also greatly improves performance. The core of GRFormer is Grouped Residual Self-Attention (GRSA), which is specifically oriented towards two fundamental components. Firstly, it introduces a novel grouped residual layer (GRL) to replace the Query, Key, Value (QKV) linear layer in self-attention, aimed at efficiently reducing parameter overhead, computations, and performance loss at the same time. Secondly, it integrates a compact Exponential-Space Relative Position Bias (ES-RPB) as a substitute for the original relative position bias to improve the ability to represent position information while further minimizing the parameter count. Extensive experimental results demonstrate that GRFormer outperforms state-of-the-art transformer-based methods for $\times$2, $\times$3 and $\times$4 SISR tasks, notably outperforming SOTA by a maximum PSNR of 0.23dB when trained on the DIV2K dataset, while reducing the number of parameter and MACs by about \textbf{60\%} and \textbf{49\% } in only self-attention module respectively. We hope that our simple and effective method that can easily applied to SR models based on window-division self-attention can serve as a useful tool for further research in image super-resolution. The code is available at \url{https://github.com/sisrformer/GRFormer}.
Abstract（参考訳）: 従来の研究では、トランスフォーマーベースのシングルイメージ超解像(SISR)モデル(例えばSwinIR)のパラメータオーバーヘッドの削減と計算が、通常、性能の低下につながることが示されている。本稿では,パラメータのオーバーヘッドと計算量を削減するだけでなく,性能も大幅に向上する,効率的で軽量なGRFormerを提案する。 GRFormer の中核は Grouped Residual Self-Attention (GRSA) である。まず、クエリ、キー、バリュー(QKV)線形層を自己注意で置き換える、新しいグループ化された残留層(GRL)を導入する。第二に、コンパクトな指数空間相対位置バイアス(ES-RPB)を元の相対位置バイアスの代用として統合し、パラメータ数をさらに最小化しながら位置情報を表現する能力を向上させる。 GRFormerは、DIV2Kデータセットでトレーニングされた場合、最大PSNR0.23dBでSOTAを上回り、パラメータとMACの数を約 \textbf{60\%} と \textbf{49\% } でそれぞれ減らした。ウィンドウ分割自己アテンションに基づくSRモデルに容易に適用可能な,単純かつ効果的な手法が,画像超解像のさらなる研究に役立つことを期待する。コードは \url{https://github.com/sisrformer/GRFormer} で公開されている。

関連論文リスト

PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。 ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文参考訳（メタデータ） (2025-07-16T11:25:03Z)
QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation [52.024845354511555]
構造化パラメータ更新にQR分解を利用する新しい微調整フレームワークであるQR-LoRAを提案する。我々の重要な洞察は、Q行列が視覚的特徴間の干渉を自然に最小化することである。 QR-LoRAは、コンテンツスタイルの融合タスクにおいて、より優れた絡み合いを実現することを示す実験である。
論文参考訳（メタデータ） (2025-07-07T01:31:01Z)
Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging [45.39911367007956]
ディープ・アンロールとプラグ・アンド・プレイのアプローチは、単画素イメージング(SPI)逆問題におけるデファクトとなっている。本稿では,両クラスの解き手の強みを統合するという課題に対処する。
論文参考訳（メタデータ） (2025-05-29T07:16:57Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Adaptive Principal Components Allocation with the $\ell_{2,g}$-regularized Gaussian Graphical Model for Efficient Fine-Tuning Large Models [7.6656660956453635]
ガウス図形モデル(GGM)に基づく高速ファインニング(PEFT)手法を提案する。提案手法の有効性を実証し、トレーニング可能なパラメータを著しく少なくして競合性能を実現する。
論文参考訳（メタデータ） (2024-12-11T18:11:21Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
All You Need is an Improving Column: Enhancing Column Generation for Parallel Machine Scheduling via Transformers [0.0]
本稿では,並列マシンスケジューリング問題に対するニューラルネットワーク強化カラム生成(CG)アプローチを提案する。ニューラルネットワークをオフラインでトレーニングし、推論モードで使用することにより、負の削減コスト列を予測することにより、計算時間を大幅に削減できる。大規模インスタンスの場合,提案手法は目標値の80%を500秒未満で改善する。
論文参考訳（メタデータ） (2024-10-21T02:53:37Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
In defense of parameter sharing for model-compression [38.80110838121722]
ランダム化パラメータ共有(RPS)法は、トレーニング開始時にモデル圧縮の牽引力を得た。 RPSは、より小さなモデルと、中程度に情報を得たプルーニング戦略を一貫して上回っている。本稿では, RPS モデルへのパラダイムシフトを論じる。
論文参考訳（メタデータ） (2023-10-17T22:08:01Z)
Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal [23.224536745724077]
降雨による除雪は、降雪や降雪の粒子を除去することを目的とした、気象劣化画像復元の特別課題である。本稿では,この課題に対処する効率的かつ効率的な変換器であるRSFormerを提案する。 RSFormerは、他の復元方法と比較して、パフォーマンスと時間消費の最良のトレードオフを達成する。
論文参考訳（メタデータ） (2023-04-06T04:39:23Z)
SRFormerV2: Taking a Closer Look at Permuted Self-Attention for Image Super-Resolution [74.48610723198514]
SRFormerは、大きなウィンドウの自己注意の恩恵を享受できる、単純だが斬新な方法である。我々のSRFormerはUrban100データセットで33.86dBのPSNRスコアを獲得し、SwinIRよりも0.46dB高い。実験により, SRFormerV2と呼ばれるスケールモデルにより, 結果がさらに向上し, 最先端の達成が期待できることがわかった。
論文参考訳（メタデータ） (2023-03-17T02:38:44Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文参考訳（メタデータ） (2021-05-21T15:47:18Z)
Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文参考訳（メタデータ） (2021-01-26T04:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。