論文の概要: Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2307.02974v1
- Date: Thu, 6 Jul 2023 13:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:07:36.185683
- Title: Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution
- Title(参考訳): リモートセンシング画像超解像のためのクロス空間画素統合とクロスステージ機能融合型トランスネットワーク
- Authors: Yuting Lu, Lingtong Min, Binglu Wang, Le Zheng, Xiaoxu Wang, Yongqiang
Zhao, Teng Long
- Abstract要約: 変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
- 参考スコア(独自算出の注目度): 13.894645293832044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image super-resolution (RSISR) plays a vital role in enhancing
spatial detials and improving the quality of satellite imagery. Recently,
Transformer-based models have shown competitive performance in RSISR. To
mitigate the quadratic computational complexity resulting from global
self-attention, various methods constrain attention to a local window,
enhancing its efficiency. Consequently, the receptive fields in a single
attention layer are inadequate, leading to insufficient context modeling.
Furthermore, while most transform-based approaches reuse shallow features
through skip connections, relying solely on these connections treats shallow
and deep features equally, impeding the model's ability to characterize them.
To address these issues, we propose a novel transformer architecture called
Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network (SPIFFNet) for RSISR. Our proposed model effectively
enhances global cognition and understanding of the entire image, facilitating
efficient integration of features cross-stages. The model incorporates
cross-spatial pixel integration attention (CSPIA) to introduce contextual
information into a local window, while cross-stage feature fusion attention
(CSFFA) adaptively fuses features from the previous stage to improve feature
expression in line with the requirements of the current stage. We conducted
comprehensive experiments on multiple benchmark datasets, demonstrating the
superior performance of our proposed SPIFFNet in terms of both quantitative
metrics and visual quality when compared to state-of-the-art methods.
- Abstract(参考訳): リモートセンシング画像スーパーレゾリューション(RSISR)は、空間デテールの強化と衛星画像の品質向上に重要な役割を果たす。
近年、TransformerベースのモデルはRSISRの競争性能を示している。
グローバルな自己注意による二次計算の複雑さを軽減するため、様々な手法が局所的な窓に注意を拘束し、効率を高める。
その結果、単一の注意層における受容場は不十分であり、コンテキストモデリングが不十分となる。
さらに、ほとんどの変換ベースのアプローチは、スキップ接続を通じて浅い機能を再利用するが、これらの接続のみに依存することによって、浅い特徴と深い特徴を等しく扱い、モデルの特徴付け能力を妨げる。
これらの課題に対処するため,RSISR 用 Cross-Spatial Pixel Integration と Cross-Stage Feature Fusion Based Transformer Network (SPIFFNet) と呼ばれる新しいトランスフォーマアーキテクチャを提案する。
提案モデルは,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図る。
本モデルでは,CSPIA (Cross-spatial pixel Integration attention) を用いて局所窓にコンテキスト情報を導入し,CSFFA (Cross-stage feature fusion attention) は前段階の特徴を適応的に融合させ,現行の要件に則って特徴表現を改善する。
本研究では,複数のベンチマークデータセットを対象とした総合的な実験を行い,提案するspiffnetの性能を,最先端手法と比較して定量的指標と視覚品質の両面で実証した。
関連論文リスト
- HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。
また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文 参考訳(メタデータ) (2024-05-22T17:57:37Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。