論文の概要: Multi-scale Attention Network for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2209.14145v1
- Date: Wed, 28 Sep 2022 14:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 18:05:37.638258
- Title: Multi-scale Attention Network for Image Super-Resolution
- Title(参考訳): 画像超解像のためのマルチスケール注意ネットワーク
- Authors: Yan Wang, Yusen Li, Gang Wang, and Xiaoguang Liu
- Abstract要約: 本稿では,マルチスケール大規模カーネルアテンション(MLKA)とゲート空間アテンションユニット(GSAU)からなるCNNベースのマルチスケールアテンションネットワーク(MAN)を提案する。
我々のMANは、最先端のパフォーマンスと計算の間の様々なトレードオフを達成できます。
- 参考スコア(独自算出の注目度): 13.032872092785261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By exploiting large kernel decomposition and attention mechanisms,
convolutional neural networks (CNN) can compete with transformer-based methods
in many high-level computer vision tasks. However, due to the advantage of
long-range modeling, the transformers with self-attention still dominate the
low-level vision, including the super-resolution task. In this paper, we
propose a CNN-based multi-scale attention network (MAN), which consists of
multi-scale large kernel attention (MLKA) and a gated spatial attention unit
(GSAU), to improve the performance of convolutional SR networks. Within our
MLKA, we rectify LKA with multi-scale and gate schemes to obtain the abundant
attention map at various granularity levels, therefore jointly aggregating
global and local information and avoiding the potential blocking artifacts. In
GSAU, we integrate gate mechanism and spatial attention to remove the
unnecessary linear layer and aggregate informative spatial context. To confirm
the effectiveness of our designs, we evaluate MAN with multiple complexities by
simply stacking different numbers of MLKA and GSAU. Experimental results
illustrate that our MAN can achieve varied trade-offs between state-of-the-art
performance and computations. Code is available at
https://github.com/icandle/MAN.
- Abstract(参考訳): カーネルの大規模な分解とアテンション機構を活用することで、畳み込みニューラルネットワーク(CNN)は多くのハイレベルコンピュータビジョンタスクにおいてトランスフォーマーベースの手法と競合することができる。
しかし、長距離モデリングの利点により、自己注意型変圧器は依然として超解像度タスクを含む低レベルの視界を支配している。
本稿では、畳み込みSRネットワークの性能向上を図るため、MLKAとGSAUからなるCNNベースのマルチスケールアテンションネットワーク(MAN)を提案する。
mlka内では、lkaを多スケールおよびゲートスキームで修正し、様々な粒度レベルで豊富な注意マップを取得することにより、グローバルおよびローカル情報を統合し、潜在的なブロッキングアーティファクトを回避する。
GSAUでは、不要な線形層を除去し、情報的空間文脈を集約するためにゲート機構と空間的注意を統合する。
設計の有効性を確認するため,MLKAとGSAUの異なる数のMLKAとGSAUを単純に積み重ねることで,MANを複数の複雑度で評価する。
実験結果から,我々のMANは,最先端の性能と計算とのトレードオフを様々に達成できることが示された。
コードはhttps://github.com/icandle/man.comから利用できる。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing Generated
Gating Function [1.6317061277457001]
アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途はビジョン領域の多くのタスクに拡張されている。
本稿では、通常のアテンション層をネットワーク内のネットワーク構造に置き換えることで、計算負担を軽減するための標準ViTブロックの代替として、新しい計算ブロックを提案する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Parallel Multi-Scale Networks with Deep Supervision for Hand Keypoint
Detection [3.1781111932870716]
マルチスケールディープスーパービジョンネットワーク(P-MSDSNet)という新しいCNNモデルを提案する。
P-MSDSNetは、層から層への適応的な特徴伝達のための注意マップを作成するために、深い監督の下で異なるスケールで特徴マップを学習する。
P-MSDSNetは,パラメータの少ないベンチマークデータセットにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-19T22:38:16Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral
Super-Resolution [79.97180849505294]
本稿では,HSIの空間分解能を高めるために,CUCaNetというクロスアテンション機構を備えた新しい結合型アンミックスネットワークを提案する。
3つの広く使われているHS-MSデータセットに対して、最先端のHSI-SRモデルと比較実験を行った。
論文 参考訳(メタデータ) (2020-07-10T08:08:20Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。