論文の概要: SAAT: Synergistic Alternating Aggregation Transformer for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2506.03740v1
- Date: Wed, 04 Jun 2025 09:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.252317
- Title: SAAT: Synergistic Alternating Aggregation Transformer for Image Super-Resolution
- Title(参考訳): SAAT:画像超解像用相乗変換器
- Authors: Jianfeng Wu, Nannan Xu,
- Abstract要約: 単一画像超解像は、低解像度画像を高解像度画像に復元することを目的としている。
現在の方法は通常、計算コストを節約するために、重複しないウィンドウで自己注意を計算する。
本稿では、CWSAG(Spatial & Window Synergistic Attention Group)とSWSAG(Spatial & Window Synergistic Attention Group)を紹介する。
- 参考スコア(独自算出の注目度): 4.902167707668537
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Single image super-resolution is a well-known downstream task which aims to restore low-resolution images into high-resolution images. At present, models based on Transformers have shone brightly in the field of super-resolution due to their ability to capture long-term dependencies in information. However, current methods typically compute self-attention in nonoverlapping windows to save computational costs, and the standard self-attention computation only focuses on its results, thereby neglecting the useful information across channels and the rich spatial structural information generated in the intermediate process. Channel attention and spatial attention have, respectively, brought significant improvements to various downstream visual tasks in terms of extracting feature dependency and spatial structure relationships, but the synergistic relationship between channel and spatial attention has not been fully explored yet.To address these issues, we propose a novel model. Synergistic Alternating Aggregation Transformer (SAAT), which can better utilize the potential information of features. In SAAT, we introduce the Efficient Channel & Window Synergistic Attention Group (CWSAG) and the Spatial & Window Synergistic Attention Group (SWSAG). On the one hand, CWSAG combines efficient channel attention with shifted window attention, enhancing non-local feature fusion, and producing more visually appealing results. On the other hand, SWSAG leverages spatial attention to capture rich structured feature information, thereby enabling SAAT to more effectively extract structural features.Extensive experimental results and ablation studies demonstrate the effectiveness of SAAT in the field of super-resolution. SAAT achieves performance comparable to that of the state-of-the-art (SOTA) under the same quantity of parameters.
- Abstract(参考訳): 単一画像超解像は、低解像度画像を高解像度画像に復元することを目的とした、よく知られた下流タスクである。
現在、トランスフォーマーに基づくモデルは、情報の長期的な依存関係をキャプチャする能力により、超解像の領域で顕著に輝いている。
しかし、現在の手法では、通常、重複しないウィンドウにおける自己アテンションを計算して計算コストを削減し、標準的な自己アテンション計算はその結果にのみ焦点を合わせ、それによってチャネル間の有用な情報や中間プロセスで生成された豊富な空間構造情報を無視する。
チャネルアテンションと空間アテンションは, 特徴依存性と空間構造の関係を抽出するという点で, 様々な下流視覚タスクに顕著な改善をもたらしたが, チャネルアテンションと空間アテンションの相乗的関係は未だ十分に解明されていない。
Synergistic Alternating Aggregation Transformer (SAAT) - 特徴の潜在的な情報を活用する。
SAATでは,効率の良いチャネル・ウィンドウ・シナジスティック・アテンション・グループ (CWSAG) と空間・ウィンドウ・シナジスティック・アテンション・グループ (SWSAG) を紹介する。
一方、CWSAGは、効率的なチャネルアテンションとシフト窓アテンションを組み合わせ、非局所的特徴融合を強化し、より視覚的に魅力的な結果をもたらす。
一方、SWSAGは空間的注意を生かしてリッチな構造的特徴情報を捉え、SAATがより効果的に構造的特徴を抽出することを可能にする。
SAATは、同じ量のパラメータの下で、最先端のSOTA(State-of-the-art)に匹敵するパフォーマンスを達成する。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
画像超解像(SR)タスクのためのマルチランジアテンショントランス (MAT) を提案する。
MATはマルチレンジ・アテンション(MA)とスパース・マルチレンジ・アテンション(SMA)の両方を促進する。
また、MSConvStarモジュールを導入し、マルチレンジ表現学習におけるモデルの能力を高める。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。