論文の概要: HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2407.05878v1
- Date: Mon, 8 Jul 2024 12:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:50:25.644935
- Title: HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution
- Title(参考訳): HiT-SR:高効率画像超解像のための階層変換器
- Authors: Xiang Zhang, Yulun Zhang, Fisher Yu,
- Abstract要約: 変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
- 参考スコア(独自算出の注目度): 70.52256118833583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have exhibited promising performance in computer vision tasks including image super-resolution (SR). However, popular transformer-based SR methods often employ window self-attention with quadratic computational complexity to window sizes, resulting in fixed small windows with limited receptive fields. In this paper, we present a general strategy to convert transformer-based SR networks to hierarchical transformers (HiT-SR), boosting SR performance with multi-scale features while maintaining an efficient design. Specifically, we first replace the commonly used fixed small windows with expanding hierarchical windows to aggregate features at different scales and establish long-range dependencies. Considering the intensive computation required for large windows, we further design a spatial-channel correlation method with linear complexity to window sizes, efficiently gathering spatial and channel information from hierarchical windows. Extensive experiments verify the effectiveness and efficiency of our HiT-SR, and our improved versions of SwinIR-Light, SwinIR-NG, and SRFormer-Light yield state-of-the-art SR results with fewer parameters, FLOPs, and faster speeds ($\sim7\times$).
- Abstract(参考訳): トランスフォーマーは、画像超解像(SR)を含むコンピュータビジョンタスクにおいて有望な性能を示した。
しかし、一般的なトランスフォーマーベースのSR手法では、ウィンドウサイズに2次計算の複雑さを持つウィンドウ自己アテンションを用いることが多いため、受信フィールドが限られている固定された小さなウィンドウが生じる。
本稿では,変換器をベースとしたSRネットワークを階層変換器(HiT-SR)に変換するための一般的な手法を提案する。
具体的には、まず、一般的な固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約し、長距離依存を確立する。
大規模なウィンドウに必要となる集中的な計算を考慮し,窓の大きさに線形な複雑度を持つ空間チャネル相関法を設計し,階層型ウィンドウから空間およびチャネル情報を効率的に収集する。
広範囲にわたる実験により、我々のHiT-SRの有効性と効率が検証され、改良されたSwinIR-Light、SwinIR-NG、SRFormer-Lightは、より少ないパラメータ、FLOP、高速なSR結果が得られる(\sim7\times$)。
関連論文リスト
- A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift [6.835244697120131]
1x1のパッチサイズを利用して制限に対処するTaylorIRを提案し、任意のトランスフォーマーベースSRモデルでピクセルレベルの処理を可能にする。
実験により,従来の自己注意型変圧器と比較して,メモリ消費を最大60%削減しながら,最先端のSR性能を実現することができた。
論文 参考訳(メタデータ) (2024-11-15T14:43:58Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for
Super-Resolution [16.54421804141835]
SISRモデルの中間機能の高解像度化は、メモリと計算要求を増加させる。
本稿では、SISRタスクのためのデプロイメントフレンドリな内部パッチ変換ネットワーク(DITN)を提案する。
我々のモデルは、質的かつ定量的な性能と高いデプロイメント効率で競合する結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-05T05:42:51Z) - Incorporating Transformer Designs into Convolutions for Lightweight
Image Super-Resolution [46.32359056424278]
大規模な畳み込みカーネルは畳み込みニューラルネットワークの設計に人気がある。
カーネルのサイズが大きくなるとパラメータの数が2倍に増加し、計算量やメモリの要求も大きくなる。
本稿では,自己注意機構を付加した標準畳み込みを改良した近傍注意モジュールを提案する。
NAモジュールをベースとして,TSRと呼ばれる軽量単一画像超解像(SISR)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T01:32:18Z) - Image Super-Resolution using Efficient Striped Window Transformer [6.815956004383743]
本稿では,効率的なストライプウィンドウトランス (ESWT) を提案する。
ESWTは効率的な変換層(ETL)で構成されており、クリーンな構造と冗長な操作を避けることができる。
トランスの可能性をさらに活用するために,新しいフレキシブルウィンドウトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-01-24T09:09:35Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。