論文の概要: Correlation Matching Transformation Transformers for UHD Image Restoration
- arxiv url: http://arxiv.org/abs/2406.00629v1
- Date: Sun, 2 Jun 2024 06:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 04:06:06.985289
- Title: Correlation Matching Transformation Transformers for UHD Image Restoration
- Title(参考訳): UHD画像復元のための相関マッチング変換器
- Authors: Cong Wang, Jinshan Pan, Wei Wang, Gang Fu, Siyuan Liang, Mengzhu Wang, Xiao-Ming Wu, Jun Liu,
- Abstract要約: 本稿では,UHD画像復元のための汎用変換器を提案する。
UHDformerには、(a)高分解能空間での学習と(b)低分解能空間での学習の2つの学習空間がある。
実験の結果、UHDformerは最先端の手法と比較して約97%のモデルサイズを削減できることがわかった。
- 参考スコア(独自算出の注目度): 46.569124456928535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes UHDformer, a general Transformer for Ultra-High-Definition (UHD) image restoration. UHDformer contains two learning spaces: (a) learning in high-resolution space and (b) learning in low-resolution space. The former learns multi-level high-resolution features and fuses low-high features and reconstructs the residual images, while the latter explores more representative features learning from the high-resolution ones to facilitate better restoration. To better improve feature representation in low-resolution space, we propose to build feature transformation from the high-resolution space to the low-resolution one. To that end, we propose two new modules: Dual-path Correlation Matching Transformation module (DualCMT) and Adaptive Channel Modulator (ACM). The DualCMT selects top C/r (r is greater or equal to 1 which controls the squeezing level) correlation channels from the max-pooling/mean-pooling high-resolution features to replace low-resolution ones in Transformers, which can effectively squeeze useless content to improve the feature representation in low-resolution space to facilitate better recovery. The ACM is exploited to adaptively modulate multi-level high-resolution features, enabling to provide more useful features to low-resolution space for better learning. Experimental results show that our UHDformer reduces about ninety-seven percent model sizes compared with most state-of-the-art methods while significantly improving performance under different training sets on 3 UHD image restoration tasks, including low-light image enhancement, image dehazing, and image deblurring. The source codes will be made available at https://github.com/supersupercong/UHDformer.
- Abstract(参考訳): 本稿では,UHD画像復元のための汎用変換器であるUHDformerを提案する。
UHDformerには2つの学習空間がある。
(a)高分解能空間での学習
(b)低分解能空間での学習。
前者は高解像度の特徴を学習し、低解像度の特徴を融合させ、残像を再構成する。
低分解能空間における特徴表現を改善するために,高分解能空間から低分解能空間への特徴変換を構築することを提案する。
そこで我々はDual-path correlation Matching Transformation Module (DualCMT)とAdaptive Channel Modulator (ACM)の2つの新しいモジュールを提案する。
DualCMTは、最大プール/平均プールの高解像度特徴からトップC/r(rは、スケズレベルを制御する1に等しい)相関チャネルを選択して、トランスフォーマーの低解像度特徴を置き換える。
ACMは、多レベル高解像度の機能を適応的に調整するために利用されており、より優れた学習のために低解像度の空間により有用な機能を提供する。
実験結果から,UHDフォーマは現状の手法と比較して約97%のモデルサイズを削減し,低照度画像強調,画像脱ハージング,画像劣化を含む3つのUHD画像復元タスクのトレーニングセットの違いによる性能向上を図った。
ソースコードはhttps://github.com/supersupercong/UHDformer.comで入手できる。
関連論文リスト
- MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution [31.564277546050484]
本稿では,パッチ埋め込みを最適化することにより,解像度変化に対するモデル適応性を向上させることを提案する。
提案手法はMulti-Scale Patch Embedding (MSPE) と呼ばれ、複数の可変サイズのパッチカーネルに標準パッチを埋め込む。
我々の手法は、他の部品への高コストなトレーニングや修正を必要としないため、ほとんどのViTモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2024-05-28T14:50:12Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Dual Degradation-Inspired Deep Unfolding Network for Low-Light Image
Enhancement [3.4929041108486185]
低照度画像強調のためのDual degrAdation-inSpired Deep Unfolding Network(DASUNet)を提案する。
輝度空間と色空間の間の劣化特異性を考慮することによって、2つの異なる画像先行性を学ぶ。
ソースコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2023-08-05T03:07:11Z) - Lightweight Structure-aware Transformer Network for VHR Remote Sensing
Image Change Detection [15.391216316828354]
RS画像CDのための軽量構造対応トランス (LSAT) ネットワークを提案する。
まず、線形複雑度を有するクロス次元インタラクティブ自己注意(CISA)モジュールは、視覚変換器におけるバニラ自己注意を置き換えるように設計されている。
第二に、SAEM(Structure-Aware Enhancement Module)は、差分特徴とエッジ詳細情報を強化するために設計されている。
論文 参考訳(メタデータ) (2023-06-03T03:21:18Z) - Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。
本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文 参考訳(メタデータ) (2023-03-12T20:49:07Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - Large Motion Video Super-Resolution with Dual Subnet and Multi-Stage
Communicated Upsampling [18.09730129484432]
ビデオ超解像(VSR)は、低解像度(LR)でビデオを復元し、高解像度(HR)に改善することを目的としている。
本稿では,2重サブネットと多段通信アップサンプリング(dsmc)を用いた,大規模動画の超高解像度化のための深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T11:52:12Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。