論文の概要: Activating More Pixels in Image Super-Resolution Transformer
- arxiv url: http://arxiv.org/abs/2205.04437v3
- Date: Sun, 19 Mar 2023 01:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:25:29.573735
- Title: Activating More Pixels in Image Super-Resolution Transformer
- Title(参考訳): 画像超解像トランスにおける画素数の増加
- Authors: Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, and Chao Dong
- Abstract要約: トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 53.87533738125943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have shown impressive performance in low-level
vision tasks, such as image super-resolution. However, we find that these
networks can only utilize a limited spatial range of input information through
attribution analysis. This implies that the potential of Transformer is still
not fully exploited in existing networks. In order to activate more input
pixels for better reconstruction, we propose a novel Hybrid Attention
Transformer (HAT). It combines both channel attention and window-based
self-attention schemes, thus making use of their complementary advantages of
being able to utilize global statistics and strong local fitting capability.
Moreover, to better aggregate the cross-window information, we introduce an
overlapping cross-attention module to enhance the interaction between
neighboring window features. In the training stage, we additionally adopt a
same-task pre-training strategy to exploit the potential of the model for
further improvement. Extensive experiments show the effectiveness of the
proposed modules, and we further scale up the model to demonstrate that the
performance of this task can be greatly improved. Our overall method
significantly outperforms the state-of-the-art methods by more than 1dB. Codes
and models are available at https://github.com/XPixelGroup/HAT.
- Abstract(参考訳): トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
しかし,これらのネットワークは帰属分析により,限られた空間範囲の入力情報しか利用できないことがわかった。
これは、Transformerのポテンシャルが既存のネットワークで完全に活用されていないことを意味する。
より良い再構成のためにより多くの入力画素を活性化するために、新しいハイブリッドアテンショントランス(hat)を提案する。
チャネルアテンションとウィンドウベースの自己注意スキームを組み合わせることで、グローバルな統計と強力な局所的な適合能力を活用できるという相補的な利点を活用できる。
さらに,クロスウィンドウ情報をよりよく集約するために,隣接するウィンドウ特徴間の相互作用を強化するために,重なり合うクロスアテンションモジュールを導入する。
トレーニング段階では、モデルの可能性を利用してさらなる改善を図るために、同じタスク事前学習戦略を採用する。
実験の結果,提案するモジュールの有効性が明らかになり,さらにモデルをスケールアップして,このタスクの性能を大幅に向上できることを示す。
提案手法は1dB以上で最先端の手法を著しく上回っている。
コードとモデルはhttps://github.com/xpixelgroup/hatで入手できる。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T12:14:34Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。