論文の概要: SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and
Improved Training for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2208.11247v3
- Date: Sun, 24 Sep 2023 14:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:54:54.888882
- Title: SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and
Improved Training for Image Super-Resolution
- Title(参考訳): SwinFIR: 高速フーリエ変換によるスイナー再考と画像超解法トレーニングの改善
- Authors: Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin
- Abstract要約: 我々は、Fast Fourier Convolution (FFC) コンポーネントを置き換えることで、SwinIRを拡張するSwinFIRを提案する。
本アルゴリズムは,最新のSwinIR法よりも0.8dB高いManga109データセット上で32.83dBのPSNRを実現する。
- 参考スコア(独自算出の注目度): 1.305100137416611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have achieved impressive image restoration
performance due to their capacities to model long-range dependency compared to
CNN-based methods. However, advances like SwinIR adopts the window-based and
local attention strategy to balance the performance and computational overhead,
which restricts employing large receptive fields to capture global information
and establish long dependencies in the early layers. To further improve the
efficiency of capturing global information, in this work, we propose SwinFIR to
extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which
have the image-wide receptive field. We also revisit other advanced techniques,
i.e, data augmentation, pre-training, and feature ensemble to improve the
effect of image reconstruction. And our feature ensemble method enables the
performance of the model to be considerably enhanced without increasing the
training and testing time. We applied our algorithm on multiple popular
large-scale benchmarks and achieved state-of-the-art performance comparing to
the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on
Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR
method.
- Abstract(参考訳): トランスベース方式は,cnn方式に比べて長距離依存性をモデル化できるため,画像復元性能が向上した。
しかし、swiinirのような進歩は、パフォーマンスと計算オーバーヘッドのバランスをとるためにウィンドウベースおよびローカルアテンション戦略を採用しており、グローバル情報をキャプチャし、初期層に長い依存関係を確立するために大きな受容フィールドを採用することを制限している。
本研究では,FFC(Fast Fourier Convolution, 高速フーリエ・コンボリューション)コンポーネントをイメージワイドな受容場に置き換えることで,SwinIRを拡張できるSwinFIRを提案する。
また,画像再構成の効果を改善するために,データ拡張,事前学習,特徴アンサンブルといった他の高度な手法についても検討した。
また,本手法では,学習時間やテスト時間を増やすことなく,モデルの性能を大幅に向上させることができる。
提案アルゴリズムを複数の大規模ベンチマークに適用し,既存手法と比較して最先端性能を実現した。
例えば、我々のSwinFIRはManga109データセット上で32.83dBのPSNRを達成しています。
関連論文リスト
- Image edge enhancement for effective image classification [7.470763273994321]
ニューラルネットワークの精度とトレーニング速度を両立させるエッジ拡張に基づく手法を提案する。
我々のアプローチは、利用可能なデータセット内の画像からエッジなどの高周波特徴を抽出し、元の画像と融合させることである。
論文 参考訳(メタデータ) (2024-01-13T10:01:34Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - SwinFSR: Stereo Image Super-Resolution using SwinIR and Frequency Domain
Knowledge [27.344004897917515]
本研究では,SwinIRを拡張した新しいSwinFSR法を提案する。
ステレオビューの効率的かつ正確な融合を実現するため,RCAMと呼ばれる新しいクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-04-25T03:54:58Z) - Resolution Enhancement Processing on Low Quality Images Using Swin
Transformer Based on Interval Dense Connection Strategy [1.5705307898493193]
Transformer-based method has demonstrated great performance for image super- resolution in the method based on the convolutional neural network (CNNs)
この研究は、新しく設計されたアルゴリズムに従って異なるブロックを接続するインターバルDense Connection Strategyを提案する。
本研究は、リアルタイムアプリケーションにおいて、低画質画像上でオブジェクト検出とリアルタイム画像の超解像を行うために、You Only Look Once(YOLOv8)モデルの最後のバージョンと提案モデルを適用した。
論文 参考訳(メタデータ) (2023-03-16T10:01:12Z) - Towards Vision Transformer Unrolling Fixed-Point Algorithm: a Case Study
on Image Restoration [21.79667520132755]
本稿では、FPをアンロールし、FPformerと呼ばれるTransformerブロックを介して各アンロールされたプロセスを近似するフレームワークを提案する。
トランスフォーマーの能力をフル活用するために,自己教師付き事前学習と教師付き微調整を用いて,提案手法を画像復元に適用する。
FPformer、FPRformer、FPAformerは、自己教師付き事前学習と教師付き微調整を用いて、最先端の画像復元法と競争性能と訓練効率の向上を実現している。
論文 参考訳(メタデータ) (2023-01-29T02:59:14Z) - SAGE: Saliency-Guided Mixup with Optimal Rearrangements [22.112463794733188]
最適リアレンジメント(SAGE)を用いたサリエンシ誘導混合
SAGEは、ビジュアル・サリエンシをガイダンスとして、イメージペアを並べ替え、混合することで、新しいトレーニング例を作成する。
我々は, CIFAR-10 と CIFAR-100 について, SAGE がより効率的でありながら, より優れた性能と同等の性能を達成できることを実証した。
論文 参考訳(メタデータ) (2022-10-31T19:45:21Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。