論文の概要: SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and
Improved Training for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2208.11247v2
- Date: Sat, 6 May 2023 12:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:36:35.339459
- Title: SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and
Improved Training for Image Super-Resolution
- Title(参考訳): SwinFIR: 高速フーリエ変換によるスイナー再考と画像超解法トレーニングの改善
- Authors: Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin
- Abstract要約: 我々は、Fast Fourier Convolution (FFC) コンポーネントを置き換えることで、SwinIRを拡張するSwinFIRを提案する。
本アルゴリズムは,最新のSwinIR法よりも0.8dB高いManga109データセット上で32.83dBのPSNRを実現する。
- 参考スコア(独自算出の注目度): 0.9712140341805069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have achieved impressive image restoration
performance due to their capacities to model long-range dependency compared to
CNN-based methods. However, advances like SwinIR adopts the window-based and
local attention strategy to balance the performance and computational overhead,
which restricts employing large receptive fields to capture global information
and establish long dependencies in the early layers. To further improve the
efficiency of capturing global information, in this work, we propose SwinFIR to
extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which
have the image-wide receptive field. We also revisit other advanced techniques,
i.e, data augmentation, pre-training, and feature ensemble to improve the
effect of image reconstruction. And our feature ensemble method enables the
performance of the model to be considerably enhanced without increasing the
training and testing time. We applied our algorithm on multiple popular
large-scale benchmarks and achieved state-of-the-art performance comparing to
the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on
Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR
method.
- Abstract(参考訳): トランスベース方式は,cnn方式に比べて長距離依存性をモデル化できるため,画像復元性能が向上した。
しかし、swiinirのような進歩は、パフォーマンスと計算オーバーヘッドのバランスをとるためにウィンドウベースおよびローカルアテンション戦略を採用しており、グローバル情報をキャプチャし、初期層に長い依存関係を確立するために大きな受容フィールドを採用することを制限している。
本研究では,FFC(Fast Fourier Convolution, 高速フーリエ・コンボリューション)コンポーネントをイメージワイドな受容場に置き換えることで,SwinIRを拡張できるSwinFIRを提案する。
また,画像再構成の効果を改善するために,データ拡張,事前学習,特徴アンサンブルといった他の高度な手法についても検討した。
また,本手法では,学習時間やテスト時間を増やすことなく,モデルの性能を大幅に向上させることができる。
提案アルゴリズムを複数の大規模ベンチマークに適用し,既存手法と比較して最先端性能を実現した。
例えば、我々のSwinFIRはManga109データセット上で32.83dBのPSNRを達成しています。
関連論文リスト
- Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - SwinFSR: Stereo Image Super-Resolution using SwinIR and Frequency Domain
Knowledge [27.344004897917515]
本研究では,SwinIRを拡張した新しいSwinFSR法を提案する。
ステレオビューの効率的かつ正確な融合を実現するため,RCAMと呼ばれる新しいクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-04-25T03:54:58Z) - Resolution Enhancement Processing on Low Quality Images Using Swin
Transformer Based on Interval Dense Connection Strategy [1.5705307898493193]
Transformer-based method has demonstrated great performance for image super- resolution in the method based on the convolutional neural network (CNNs)
この研究は、新しく設計されたアルゴリズムに従って異なるブロックを接続するインターバルDense Connection Strategyを提案する。
本研究は、リアルタイムアプリケーションにおいて、低画質画像上でオブジェクト検出とリアルタイム画像の超解像を行うために、You Only Look Once(YOLOv8)モデルの最後のバージョンと提案モデルを適用した。
論文 参考訳(メタデータ) (2023-03-16T10:01:12Z) - Dynamic Test-Time Augmentation via Differentiable Functions [3.686808512438363]
DynTTAは、認識モデルを再訓練することなく、認識に優しい画像を生成する画像強調手法である。
DynTTAは、微分可能なデータ拡張技術に基づいて、多くの画像からブレンド画像を生成し、分布シフト時の認識精度を向上させる。
論文 参考訳(メタデータ) (2022-12-09T06:06:47Z) - SAGE: Saliency-Guided Mixup with Optimal Rearrangements [22.112463794733188]
最適リアレンジメント(SAGE)を用いたサリエンシ誘導混合
SAGEは、ビジュアル・サリエンシをガイダンスとして、イメージペアを並べ替え、混合することで、新しいトレーニング例を作成する。
我々は, CIFAR-10 と CIFAR-100 について, SAGE がより効率的でありながら, より優れた性能と同等の性能を達成できることを実証した。
論文 参考訳(メタデータ) (2022-10-31T19:45:21Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。