論文の概要: Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images
- arxiv url: http://arxiv.org/abs/2210.15972v1
- Date: Fri, 28 Oct 2022 08:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:24:50.434998
- Title: Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images
- Title(参考訳): VHRリモートセンシング画像のためのフーリエ複素場における文脈学習
- Authors: Yan Zhang, Xiyuan Gao, Qingyan Duan, Jiaxu Leng, Xiao Pu, Xinbo Gao
- Abstract要約: 変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
- 参考スコア(独自算出の注目度): 64.84260544255477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Very high-resolution (VHR) remote sensing (RS) image classification is the
fundamental task for RS image analysis and understanding. Recently,
transformer-based models demonstrated outstanding potential for learning
high-order contextual relationships from natural images with general resolution
(224x224 pixels) and achieved remarkable results on general image
classification tasks. However, the complexity of the naive transformer grows
quadratically with the increase in image size, which prevents transformer-based
models from VHR RS image (500x500 pixels) classification and other
computationally expensive downstream tasks. To this end, we propose to
decompose the expensive self-attention (SA) into real and imaginary parts via
discrete Fourier transform (DFT) and therefore propose an efficient complex
self-attention (CSA) mechanism. Benefiting from the conjugated symmetric
property of DFT, CSA is capable to model the high-order contextual information
with less than half computations of naive SA. To overcome the gradient
explosion in Fourier complex field, we replace the Softmax function with the
carefully designed Logmax function to normalize the attention map of CSA and
stabilize the gradient propagation. By stacking various layers of CSA blocks,
we propose the Fourier Complex Transformer (FCT) model to learn global
contextual information from VHR aerial images following the hierarchical
manners. Universal experiments conducted on commonly used RS classification
data sets demonstrate the effectiveness and efficiency of FCT, especially on
very high-resolution RS images.
- Abstract(参考訳): 超高分解能(VHR)リモートセンシング(RS)画像分類は、RS画像解析と理解の基本的な課題である。
近年, 変換器を用いたモデルでは, 一般解像度(224×224ピクセル)の自然画像から高次文脈関係を学習し, 一般画像分類タスクにおいて顕著な結果が得られた。
しかし、単純変換器の複雑さは画像サイズの増加とともに2次的に増大し、VHR RS画像(500x500ピクセル)分類やその他の計算コストのかかる下流タスクから変換器ベースのモデルを避ける。
この目的のために, 高価な自己着脱 (sa) を離散フーリエ変換 (dft) により実部と虚部に分け, 効率的な複素自己着脱 (csa) 機構を提案する。
DFTの共役対称性から恩恵を受けることで、CSAは、高次文脈情報を半分以下のSAの計算でモデル化することができる。
フーリエ複素場における勾配爆発を克服するために, ソフトマックス関数を注意深く設計されたlogmax関数に置き換え, csaの注意マップを正規化し, 勾配伝播を安定化する。
CSAブロックの様々な層を積み重ねることで、階層的手法に従ってVHR空中画像から大域的文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
一般的なRS分類データセットを用いて行われた普遍的な実験は、特に高分解能RS画像においてFCTの有効性と効率を示す。
関連論文リスト
- Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution [8.78015409192613]
Arbitrary-scale Super- resolution (ASSR) は、任意の拡大スケールで画像超解像の1つのモデルを学ぶことを目的としている。
既存のASSRネットワークは、通常、既製のスケール非依存の特徴抽出器と任意のスケールアップサンプラーから構成される。
本稿では,効率的な画像ASSRのための入力適応型特徴抽出器として,タスク対応動的変換器(TADT)を提案する。
論文 参考訳(メタデータ) (2024-08-16T13:35:52Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Implicit Transformer Network for Screen Content Image Continuous
Super-Resolution [27.28782217250359]
高分解能(HR)スクリーンの内容は、ダウンサンプリングされ圧縮されることがある。
低解像度(LR)画面コンテンツ画像(SCI)の超解像度(SR)は、HRディスプレイやユーザが詳細な観察のためにズームインするように要求される。
本稿では,SCISRのための新しいImplicit Transformer Super-Resolution Network(ITSRN)を提案する。
論文 参考訳(メタデータ) (2021-12-12T07:39:37Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。