論文の概要: HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2407.05878v1
- Date: Mon, 8 Jul 2024 12:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:50:25.644935
- Title: HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution
- Title(参考訳): HiT-SR:高効率画像超解像のための階層変換器
- Authors: Xiang Zhang, Yulun Zhang, Fisher Yu,
- Abstract要約: 変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
- 参考スコア(独自算出の注目度): 70.52256118833583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have exhibited promising performance in computer vision tasks including image super-resolution (SR). However, popular transformer-based SR methods often employ window self-attention with quadratic computational complexity to window sizes, resulting in fixed small windows with limited receptive fields. In this paper, we present a general strategy to convert transformer-based SR networks to hierarchical transformers (HiT-SR), boosting SR performance with multi-scale features while maintaining an efficient design. Specifically, we first replace the commonly used fixed small windows with expanding hierarchical windows to aggregate features at different scales and establish long-range dependencies. Considering the intensive computation required for large windows, we further design a spatial-channel correlation method with linear complexity to window sizes, efficiently gathering spatial and channel information from hierarchical windows. Extensive experiments verify the effectiveness and efficiency of our HiT-SR, and our improved versions of SwinIR-Light, SwinIR-NG, and SRFormer-Light yield state-of-the-art SR results with fewer parameters, FLOPs, and faster speeds ($\sim7\times$).
- Abstract(参考訳): トランスフォーマーは、画像超解像(SR)を含むコンピュータビジョンタスクにおいて有望な性能を示した。
しかし、一般的なトランスフォーマーベースのSR手法では、ウィンドウサイズに2次計算の複雑さを持つウィンドウ自己アテンションを用いることが多いため、受信フィールドが限られている固定された小さなウィンドウが生じる。
本稿では,変換器をベースとしたSRネットワークを階層変換器(HiT-SR)に変換するための一般的な手法を提案する。
具体的には、まず、一般的な固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約し、長距離依存を確立する。
大規模なウィンドウに必要となる集中的な計算を考慮し,窓の大きさに線形な複雑度を持つ空間チャネル相関法を設計し,階層型ウィンドウから空間およびチャネル情報を効率的に収集する。
広範囲にわたる実験により、我々のHiT-SRの有効性と効率が検証され、改良されたSwinIR-Light、SwinIR-NG、SRFormer-Lightは、より少ないパラメータ、FLOP、高速なSR結果が得られる(\sim7\times$)。
関連論文リスト
- Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution [16.54421804141835]
SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。
本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。
我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-05T05:42:51Z) - Incorporating Transformer Designs into Convolutions for Lightweight
Image Super-Resolution [46.32359056424278]
大規模な畳み込みカーネルは畳み込みニューラルネットワークの設計に人気がある。
カーネルのサイズが大きくなるとパラメータの数が2倍に増加し、計算量やメモリの要求も大きくなる。
本稿では,自己注意機構を付加した標準畳み込みを改良した近傍注意モジュールを提案する。
NAモジュールをベースとして,TSRと呼ばれる軽量単一画像超解像(SISR)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T01:32:18Z) - Image Super-Resolution using Efficient Striped Window Transformer [6.815956004383743]
本稿では,効率的なストライプウィンドウトランス (ESWT) を提案する。
ESWTは効率的な変換層(ETL)で構成されており、クリーンな構造と冗長な操作を避けることができる。
トランスの可能性をさらに活用するために,新しいフレキシブルウィンドウトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-01-24T09:09:35Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。