論文の概要: DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2301.02031v1
- Date: Thu, 5 Jan 2023 12:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:07:52.703454
- Title: DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution
- Title(参考訳): DLGSANet:画像超解像のための軽量ダイナミックローカルおよびグローバルセルフアテンションネットワーク
- Authors: Xiang Li, Jinshan Pan, Jinhui Tang, and Jiangxin Dong
- Abstract要約: 画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
- 参考スコア(独自算出の注目度): 83.47467223117361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an effective lightweight dynamic local and global self-attention
network (DLGSANet) to solve image super-resolution. Our method explores the
properties of Transformers while having low computational costs. Motivated by
the network designs of Transformers, we develop a simple yet effective
multi-head dynamic local self-attention (MHDLSA) module to extract local
features efficiently. In addition, we note that existing Transformers usually
explore all similarities of the tokens between the queries and keys for the
feature aggregation. However, not all the tokens from the queries are relevant
to those in keys, using all the similarities does not effectively facilitate
the high-resolution image reconstruction. To overcome this problem, we develop
a sparse global self-attention (SparseGSA) module to select the most useful
similarity values so that the most useful global features can be better
utilized for the high-resolution image reconstruction. We develop a hybrid
dynamic-Transformer block(HDTB) that integrates the MHDLSA and SparseGSA for
both local and global feature exploration. To ease the network training, we
formulate the HDTBs into a residual hybrid dynamic-Transformer group (RHDTG).
By embedding the RHDTGs into an end-to-end trainable network, we show that our
proposed method has fewer network parameters and lower computational costs
while achieving competitive performance against state-of-the-art ones in terms
of accuracy. More information is available at
https://neonleexiang.github.io/DLGSANet/
- Abstract(参考訳): 画像の超解像化に有効な軽量な動的局所・グローバル自己アテンションネットワーク(DLGSANet)を提案する。
本手法は, 計算コストを低く抑えながら変圧器の特性を探索する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
さらに、既存のTransformerは、通常、機能集約のためのクエリとキー間のトークンの類似点をすべて探索する。
しかし、クエリのトークンがキーのトークンと関係しているわけではないため、すべての類似性を使用することで、高解像度の画像再構成が効果的に実現できない。
この問題を克服するため,我々はsparsegsa(sparsegsa)モジュールを開発し,最も有用な類似度値を選択し,最も有用なグローバル特徴を高分解能画像再構成に利用できるようにする。
我々は,MHDLSAとSparseGSAを統合したハイブリッド動的トランスフォーマーブロック(HDTB)を開発した。
ネットワークトレーニングを容易にするため,HDTBをRHDTG(Resternal hybrid dynamic-Transformer group)に定式化する。
RHDTGをエンドツーエンドのトレーニング可能なネットワークに埋め込むことにより,提案手法はネットワークパラメータを少なくし,計算コストを低減しつつ,最先端のネットワークとの競合性能を精度的に達成できることを示す。
詳細はhttps://neonleexiang.github.io/dlgsanet/を参照。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Learning A Sparse Transformer Network for Effective Image Deraining [42.01684644627124]
有効デレインネットワークであるスパーストランス(DRSformer)を提案する。
学習可能なトップk選択演算子を開発し、各クエリのキーから最も重要な注意点を適応的に保持し、より優れた機能アグリゲーションを実現する。
我々は,協調改良デライン方式を示すために,専門家による特徴補償器を混合したモデルを開発した。
論文 参考訳(メタデータ) (2023-03-21T15:41:57Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Self-Calibrated Efficient Transformer for Lightweight Super-Resolution [21.63691922827879]
本稿では,この問題を解決するために,SCET(Self-Calibrated Efficient Transformer)ネットワークを提案する。
SCETのアーキテクチャは、主に自己校正モジュールと効率的なトランスフォーマーブロックで構成されている。
ネットワーク全体の異なる設定に関する総合的な結果を提供する。
論文 参考訳(メタデータ) (2022-04-19T14:20:32Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。