論文の概要: Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2307.02974v1
- Date: Thu, 6 Jul 2023 13:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:07:36.185683
- Title: Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution
- Title(参考訳): リモートセンシング画像超解像のためのクロス空間画素統合とクロスステージ機能融合型トランスネットワーク
- Authors: Yuting Lu, Lingtong Min, Binglu Wang, Le Zheng, Xiaoxu Wang, Yongqiang
Zhao, Teng Long
- Abstract要約: 変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
- 参考スコア(独自算出の注目度): 13.894645293832044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image super-resolution (RSISR) plays a vital role in enhancing
spatial detials and improving the quality of satellite imagery. Recently,
Transformer-based models have shown competitive performance in RSISR. To
mitigate the quadratic computational complexity resulting from global
self-attention, various methods constrain attention to a local window,
enhancing its efficiency. Consequently, the receptive fields in a single
attention layer are inadequate, leading to insufficient context modeling.
Furthermore, while most transform-based approaches reuse shallow features
through skip connections, relying solely on these connections treats shallow
and deep features equally, impeding the model's ability to characterize them.
To address these issues, we propose a novel transformer architecture called
Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network (SPIFFNet) for RSISR. Our proposed model effectively
enhances global cognition and understanding of the entire image, facilitating
efficient integration of features cross-stages. The model incorporates
cross-spatial pixel integration attention (CSPIA) to introduce contextual
information into a local window, while cross-stage feature fusion attention
(CSFFA) adaptively fuses features from the previous stage to improve feature
expression in line with the requirements of the current stage. We conducted
comprehensive experiments on multiple benchmark datasets, demonstrating the
superior performance of our proposed SPIFFNet in terms of both quantitative
metrics and visual quality when compared to state-of-the-art methods.
- Abstract(参考訳): リモートセンシング画像スーパーレゾリューション(RSISR)は、空間デテールの強化と衛星画像の品質向上に重要な役割を果たす。
近年、TransformerベースのモデルはRSISRの競争性能を示している。
グローバルな自己注意による二次計算の複雑さを軽減するため、様々な手法が局所的な窓に注意を拘束し、効率を高める。
その結果、単一の注意層における受容場は不十分であり、コンテキストモデリングが不十分となる。
さらに、ほとんどの変換ベースのアプローチは、スキップ接続を通じて浅い機能を再利用するが、これらの接続のみに依存することによって、浅い特徴と深い特徴を等しく扱い、モデルの特徴付け能力を妨げる。
これらの課題に対処するため,RSISR 用 Cross-Spatial Pixel Integration と Cross-Stage Feature Fusion Based Transformer Network (SPIFFNet) と呼ばれる新しいトランスフォーマアーキテクチャを提案する。
提案モデルは,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図る。
本モデルでは,CSPIA (Cross-spatial pixel Integration attention) を用いて局所窓にコンテキスト情報を導入し,CSFFA (Cross-stage feature fusion attention) は前段階の特徴を適応的に融合させ,現行の要件に則って特徴表現を改善する。
本研究では,複数のベンチマークデータセットを対象とした総合的な実験を行い,提案するspiffnetの性能を,最先端手法と比較して定量的指標と視覚品質の両面で実証した。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。
ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。
CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文 参考訳(メタデータ) (2023-04-13T03:11:30Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Cross-MPI: Cross-scale Stereo for Image Super-Resolution using
Multiplane Images [44.85260985973405]
Cross-MPIは、新しい平面対応MPI機構、マルチスケールガイドアップサンプリングモジュール、超高分解能合成・融合モジュールからなるエンドツーエンドのRefSRネットワークである。
デジタル合成および光ズームクロススケールデータによる実験結果から,Cross-MPIフレームワークは既存のRefSR手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-30T09:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。