論文の概要: Efficient Long-Range Attention Network for Image Super-resolution
- arxiv url: http://arxiv.org/abs/2203.06697v1
- Date: Sun, 13 Mar 2022 16:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:04:23.687608
- Title: Efficient Long-Range Attention Network for Image Super-resolution
- Title(参考訳): 画像超解像のための効率的な長距離アテンションネットワーク
- Authors: Xindong Zhang, Hui Zeng, Shi Guo, Lei Zhang
- Abstract要約: 画像超解像(SR)のための効率的な長距離アテンションネットワーク(ELAN)を提案する。
まず、シフト畳み込み(シフト畳み込み)を用い、1x1畳み込みと同じ複雑さを維持しながら、画像局所構造情報を効果的に抽出する。
その後、GMSAモジュールで2つのシフトコンブをカスケードするだけで、高効率なロングレンジアテンションブロック(ELAB)が構築される。
- 参考スコア(独自算出の注目度): 25.51377161557467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have demonstrated impressive results in
various vision tasks, including image super-resolution (SR), by exploiting the
self-attention (SA) for feature extraction. However, the computation of SA in
most existing transformer based models is very expensive, while some employed
operations may be redundant for the SR task. This limits the range of SA
computation and consequently the SR performance. In this work, we propose an
efficient long-range attention network (ELAN) for image SR. Specifically, we
first employ shift convolution (shift-conv) to effectively extract the image
local structural information while maintaining the same level of complexity as
1x1 convolution, then propose a group-wise multi-scale self-attention (GMSA)
module, which calculates SA on non-overlapped groups of features using
different window sizes to exploit the long-range image dependency. A highly
efficient long-range attention block (ELAB) is then built by simply cascading
two shift-conv with a GMSA module, which is further accelerated by using a
shared attention mechanism. Without bells and whistles, our ELAN follows a
fairly simple design by sequentially cascading the ELABs. Extensive experiments
demonstrate that ELAN obtains even better results against the transformer-based
SR models but with significantly less complexity. The source code can be found
at https://github.com/xindongzhang/ELAN.
- Abstract(参考訳): 近年,画像超解像 (SR) を含む様々な視覚タスクにおいて,特徴抽出に自己注意 (SA) を利用するトランスフォーマー方式が注目されている。
しかし、既存のトランスモデルにおけるSAの計算は非常に高価であり、SRタスクには冗長な操作もいくつかある。
これにより、sa計算の範囲とsr性能が制限される。
本研究では,画像SRのための効率的な長距離アテンションネットワーク(ELAN)を提案する。
具体的には,まずシフト畳み込み(shift-conv)を用いて,1x1畳み込みと同じレベルの複雑さを維持しつつ,画像局所構造情報を効果的に抽出し,さらに,異なるウィンドウサイズを用いた非オーバーラップ特徴群に対するsaを計算し,長距離画像依存性を生かしたグループワイズマルチスケールセルフアテンション(gmsa)モジュールを提案する。
次に、2つのシフトコンブをGMSAモジュールで単純にカスケードすることで、高効率な長距離アテンションブロック(ELAB)を構築し、共有アテンション機構を用いてさらに加速する。
ベルとホイッスルがなければ、私たちのELANはELABを順次カスケードすることで、かなりシンプルな設計を踏襲します。
大規模な実験により、ELANはトランスフォーマーベースのSRモデルに対してより優れた結果を得るが、複雑さは著しく少ないことが示されている。
ソースコードはhttps://github.com/xindongzhang/ELANで確認できる。
関連論文リスト
- Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution [8.78015409192613]
Arbitrary-scale Super- resolution (ASSR) は、任意の拡大スケールで画像超解像の1つのモデルを学ぶことを目的としている。
既存のASSRネットワークは、通常、既製のスケール非依存の特徴抽出器と任意のスケールアップサンプラーから構成される。
本稿では,効率的な画像ASSRのための入力適応型特徴抽出器として,タスク対応動的変換器(TADT)を提案する。
論文 参考訳(メタデータ) (2024-08-16T13:35:52Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Lightweight Structure-aware Transformer Network for VHR Remote Sensing
Image Change Detection [15.391216316828354]
RS画像CDのための軽量構造対応トランス (LSAT) ネットワークを提案する。
まず、線形複雑度を有するクロス次元インタラクティブ自己注意(CISA)モジュールは、視覚変換器におけるバニラ自己注意を置き換えるように設計されている。
第二に、SAEM(Structure-Aware Enhancement Module)は、差分特徴とエッジ詳細情報を強化するために設計されている。
論文 参考訳(メタデータ) (2023-06-03T03:21:18Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - Self-Calibrated Efficient Transformer for Lightweight Super-Resolution [21.63691922827879]
本稿では,この問題を解決するために,SCET(Self-Calibrated Efficient Transformer)ネットワークを提案する。
SCETのアーキテクチャは、主に自己校正モジュールと効率的なトランスフォーマーブロックで構成されている。
ネットワーク全体の異なる設定に関する総合的な結果を提供する。
論文 参考訳(メタデータ) (2022-04-19T14:20:32Z) - Scale-Aware Dynamic Network for Continuous-Scale Super-Resolution [16.67263192454279]
連続的スケールSRのためのSADN(Scale-Aware dynamic network)を提案する。
まず、複数のSRタスクを様々なスケールで特徴学習するためのSAD-Conv層を提案する。
第2に,マルチ双線形局所暗黙関数 (MBLIF) を付加した連続スケールアップサンプリングモジュール (CSUM) を考案した。
論文 参考訳(メタデータ) (2021-10-29T09:57:48Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。