論文の概要: Recursive Generalization Transformer for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2303.06373v4
- Date: Fri, 23 Feb 2024 03:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:35:43.420711
- Title: Recursive Generalization Transformer for Image Super-Resolution
- Title(参考訳): 画像超解像用再帰一般化変換器
- Authors: Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang
- Abstract要約: 本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
- 参考スコア(独自算出の注目度): 108.67898547357127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures have exhibited remarkable performance in image
super-resolution (SR). Since the quadratic computational complexity of the
self-attention (SA) in Transformer, existing methods tend to adopt SA in a
local region to reduce overheads. However, the local design restricts the
global context exploitation, which is crucial for accurate image
reconstruction. In this work, we propose the Recursive Generalization
Transformer (RGT) for image SR, which can capture global spatial information
and is suitable for high-resolution images. Specifically, we propose the
recursive-generalization self-attention (RG-SA). It recursively aggregates
input features into representative feature maps, and then utilizes
cross-attention to extract global information. Meanwhile, the channel
dimensions of attention matrices (query, key, and value) are further scaled to
mitigate the redundancy in the channel domain. Furthermore, we combine the
RG-SA with local self-attention to enhance the exploitation of the global
context, and propose the hybrid adaptive integration (HAI) for module
integration. The HAI allows the direct and effective fusion between features at
different levels (local or global). Extensive experiments demonstrate that our
RGT outperforms recent state-of-the-art methods quantitatively and
qualitatively. Code and pre-trained models are available at
https://github.com/zhengchen1999/RGT.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、画像超解像(SR)において顕著な性能を示した。
トランスフォーマーにおける自己注意(SA)の2次計算複雑性のため、既存の手法ではオーバーヘッドを減らすために局所的にSAを採用する傾向にある。
しかし、局所的な設計は、正確な画像再構成に欠かせないグローバルな文脈利用を制限する。
本研究では,大域空間情報を捕捉し,高解像度画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
具体的には、再帰的一般化自己注意(RG-SA)を提案する。
入力特徴を代表的特徴マップに再帰的に集約し,グローバル情報抽出にクロスアテンションを利用する。
一方、注意行列(クエリ、キー、値)のチャネル次元は、チャネルドメインの冗長性を軽減するためにさらにスケールされる。
さらに,RG-SAと局所自己意識を組み合わせることで,グローバルコンテキストの活用を促進するとともに,モジュール統合のためのハイブリッド適応統合(HAI)を提案する。
HAIは、異なるレベル(ローカルまたはグローバル)の機能間の直接的で効果的な融合を可能にする。
rgtが最近の最先端手法を定量的に定性的に上回っていることを示す広範な実験を行った。
コードと事前学習されたモデルはhttps://github.com/zhengchen1999/rgtで入手できる。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - CiaoSR: Continuous Implicit Attention-in-Attention Network for
Arbitrary-Scale Image Super-Resolution [158.2282163651066]
本稿ではCiaoSRと呼ばれる連続的な暗黙の注意-注意ネットワークを提案する。
我々は、周辺地域の特徴のアンサンブル重みを学習するために、暗黙の注意ネットワークを明示的に設計する。
我々は、この暗黙の注意ネットワークにスケールアウェアの注意を埋め込んで、追加の非ローカル情報を活用する。
論文 参考訳(メタデータ) (2022-12-08T15:57:46Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。