論文の概要: Image Super-resolution Reconstruction Network based on Enhanced Swin
Transformer via Alternating Aggregation of Local-Global Features
- arxiv url: http://arxiv.org/abs/2401.00241v2
- Date: Tue, 16 Jan 2024 01:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:45:11.128218
- Title: Image Super-resolution Reconstruction Network based on Enhanced Swin
Transformer via Alternating Aggregation of Local-Global Features
- Title(参考訳): 局所的グローバル特徴の交互アグリゲーションによる拡張スウィントランスに基づく画像超解像再構成ネットワーク
- Authors: Yuming Huang, Yingpin Chen, Changhui Wu, Hanrong Xie, Binhui Song, Hui
Wang
- Abstract要約: 本稿では,局所的な特徴を交互に集約するSwin Transformerモジュールを提案する。
実験の結果,提案したネットワークは,他の最先端の超解像ネットワークよりも優れていた。
- 参考スコア(独自算出の注目度): 6.64828056492498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Swin Transformer image super-resolution reconstruction network only
relies on the long-range relationship of window attention and shifted window
attention to explore features. This mechanism has two limitations. On the one
hand, it only focuses on global features while ignoring local features. On the
other hand, it is only concerned with spatial feature interactions while
ignoring channel features and channel interactions, thus limiting its
non-linear mapping ability. To address the above limitations, this paper
proposes enhanced Swin Transformer modules via alternating aggregation of
local-global features. In the local feature aggregation stage, we introduce a
shift convolution to realize the interaction between local spatial information
and channel information. Then, a block sparse global perception module is
introduced in the global feature aggregation stage. In this module, we
reorganize the spatial information first, then send the recombination
information into a multi-layer perceptron unit to implement the global
perception. After that, a multi-scale self-attention module and a low-parameter
residual channel attention module are introduced to realize information
aggregation at different scales. Finally, the proposed network is validated on
five publicly available datasets. The experimental results show that the
proposed network outperforms the other state-of-the-art super-resolution
networks.
- Abstract(参考訳): Swin Transformer画像の超分解能再構成ネットワークは、ウィンドウアテンションとウィンドウアテンションの長距離関係にのみ依存し、特徴を探索する。
この機構には2つの制限がある。
一方、ローカル機能を無視しながら、グローバルな機能のみに焦点を当てている。
一方で、チャネル特徴やチャネル相互作用を無視しながら、空間的特徴の相互作用のみに関心を持ち、非線形マッピング能力を制限する。
上記の制約に対処するため,本稿では,局所的グローバル特徴の交互集約によるスウィントランスモジュールの拡張を提案する。
局所的特徴集約段階において,局所的空間情報とチャネル情報との相互作用を実現するためにシフト畳み込みを導入する。
そして、グローバル特徴集約段階において、ブロックスパースグローバル認識モジュールを導入する。
本モジュールでは,まず空間情報を再構成し,その組換え情報を多層パーセプトロンユニットに送信し,グローバルな知覚を実現する。
その後、複数のスケールのセルフアテンションモジュールと低パラメータの残留チャネルアテンションモジュールを導入し、異なるスケールで情報アグリゲーションを実現する。
最後に、提案されたネットワークは5つの公開データセットで検証される。
実験の結果,提案ネットワークは他の最先端スーパーレゾリューションネットワークよりも優れていた。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Relating CNN-Transformer Fusion Network for Change Detection [23.025190360146635]
RCTNetは、空間的特徴と時間的特徴の両方を利用する早期融合バックボーンを導入した。
実験では、従来のRS画像CD法よりもRCTNetの方が明らかに優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T14:58:40Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in
Optical Remote Sensing Images [7.764449276074902]
MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。
MCTNetは既存の最先端CD法よりも優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T07:54:28Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - GAttANet: Global attention agreement for convolutional neural networks [0.0]
自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、視覚でも最近効率的であることが証明された。
本稿では,標準畳み込みネットワークの性能を向上できる簡易な注意システムによる実験について報告する。
脳にインスパイアされた様々な畳み込みバックボーンのためのグローバルアテンション契約ネットワークの有用性を実証します。
論文 参考訳(メタデータ) (2021-04-12T15:45:10Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。