論文の概要: Image Super-Resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features
- arxiv url: http://arxiv.org/abs/2401.00241v5
- Date: Thu, 18 Sep 2025 06:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.806962
- Title: Image Super-Resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features
- Title(参考訳): 局所的特徴量の交互集約による強化スイム変換器に基づく画像超解像再構成ネットワーク
- Authors: Yuming Huang, Yingpin Chen, Changhui Wu, Binhui Song, Hui Wang,
- Abstract要約: Swin Transformer Network (ESTN) は、ローカルとグローバルの機能を交互に集約する。
ESTNは、SRCNN、ELAN-light、SwinIR-light、SMFANER+モデルを上回る平均PSNRを達成する。
- 参考スコア(独自算出の注目度): 4.716053949549313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Swin Transformer image super-resolution (SR) reconstruction network primarily depends on the long-range relationship of the window and shifted window attention to explore features. However, this approach focuses only on global features, ignoring local ones, and considers only spatial interactions, disregarding channel and spatial-channel feature interactions, limiting its nonlinear mapping capability. Therefore, this study proposes an enhanced Swin Transformer network (ESTN) that alternately aggregates local and global features. During local feature aggregation, shift convolution facilitates the interaction between local spatial and channel information. During global feature aggregation, a block sparse global perception module is introduced, wherein spatial information is reorganized and the recombined features are then processed by a dense layer to achieve global perception. Additionally, multiscale self-attention and low-parameter residual channel attention modules are introduced to aggregate information across different scales. Finally, the effectiveness of ESTN on five public datasets and a local attribution map (LAM) are analyzed. Experimental results demonstrate that the proposed ESTN achieves higher average PSNR, surpassing SRCNN, ELAN-light, SwinIR-light, and SMFANER+ models by 2.17dB, 0.13dB, 0.12dB, and 0.1dB, respectively, with LAM further confirming its larger receptive field. ESTN delivers improved quality of SR images. The source code can be found at https://github.com/huangyuming2021/ESTN.
- Abstract(参考訳): Swin Transformer Image Super- resolution (SR) 再構成ネットワークは、主にウィンドウの長距離関係と、特徴を探索するための窓の注意のシフトに依存する。
しかし、このアプローチはグローバルな特徴にのみ焦点をあて、局所的な特徴を無視し、空間的相互作用のみを考慮し、チャネルや空間的チャネルの特徴的相互作用を無視し、非線形マッピング能力を制限している。
そこで本研究では,局所的特徴とグローバルな特徴を交互に集約する拡張Swin Transformer Network (ESTN)を提案する。
局所的な特徴集約の間、シフト畳み込みは局所的な空間情報とチャネル情報との相互作用を促進する。
グローバルな特徴集約の間、ブロックスパースグローバルな認識モジュールを導入し、空間情報を再構成し、再結合された特徴を密度の高い層で処理し、グローバルな知覚を実現する。
さらに,異なるスケールの情報を集約するために,マルチスケールの自己注意モジュールと低パラメータのチャネルアテンションモジュールを導入している。
最後に,5つの公開データセットと局所属性マップ(LAM)に対するESTNの有効性を解析した。
SRCNN, ELAN-light, SwinIR-light, SMFANER+を2.17dB, 0.13dB, 0.12dB, 0.1dBで上回る平均PSNRを実現し, LAMがさらに大きな受容野を確認した。
ESTNはSR画像の品質を改善した。
ソースコードはhttps://github.com/huangyuming2021/ESTNで確認できる。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Relating CNN-Transformer Fusion Network for Change Detection [23.025190360146635]
RCTNetは、空間的特徴と時間的特徴の両方を利用する早期融合バックボーンを導入した。
実験では、従来のRS画像CD法よりもRCTNetの方が明らかに優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T14:58:40Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in
Optical Remote Sensing Images [7.764449276074902]
MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。
MCTNetは既存の最先端CD法よりも優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T07:54:28Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - GAttANet: Global attention agreement for convolutional neural networks [0.0]
自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、視覚でも最近効率的であることが証明された。
本稿では,標準畳み込みネットワークの性能を向上できる簡易な注意システムによる実験について報告する。
脳にインスパイアされた様々な畳み込みバックボーンのためのグローバルアテンション契約ネットワークの有用性を実証します。
論文 参考訳(メタデータ) (2021-04-12T15:45:10Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。