論文の概要: PanFormer: a Transformer Based Model for Pan-sharpening
- arxiv url: http://arxiv.org/abs/2203.02916v1
- Date: Sun, 6 Mar 2022 09:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:19:30.080391
- Title: PanFormer: a Transformer Based Model for Pan-sharpening
- Title(参考訳): panformer: パンシャープ化のためのトランスフォーマーベースモデル
- Authors: Huanyu Zhou, Qingjie Liu, Yunhong Wang
- Abstract要約: パンシャーピングは、低分解能(LR)マルチスペクトル(MS)画像とそれに対応するパンクロマチック(PAN)画像から高分解能(HR)マルチスペクトル(MS)画像を作成することを目的としている。
近年の深層学習コミュニティにおける新しいファッションに触発されて,パンシャーピングのための新しいトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 49.45405879193866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pan-sharpening aims at producing a high-resolution (HR) multi-spectral (MS)
image from a low-resolution (LR) multi-spectral (MS) image and its
corresponding panchromatic (PAN) image acquired by a same satellite. Inspired
by a new fashion in recent deep learning community, we propose a novel
Transformer based model for pan-sharpening. We explore the potential of
Transformer in image feature extraction and fusion. Following the successful
development of vision transformers, we design a two-stream network with the
self-attention to extract the modality-specific features from the PAN and MS
modalities and apply a cross-attention module to merge the spectral and spatial
features. The pan-sharpened image is produced from the enhanced fused features.
Extensive experiments on GaoFen-2 and WorldView-3 images demonstrate that our
Transformer based model achieves impressive results and outperforms many
existing CNN based methods, which shows the great potential of introducing
Transformer to the pan-sharpening task. Codes are available at
https://github.com/zhysora/PanFormer.
- Abstract(参考訳): パンシャーピングは、低分解能(LR)マルチスペクトル(MS)画像とそれに対応するパンクロマチック(PAN)画像から高分解能(HR)マルチスペクトル(MS)画像を作成することを目的としている。
近年の深層学習コミュニティにおける新しいファッションに触発されて,パンシャーピングのための新しいトランスフォーマーモデルを提案する。
画像特徴抽出と融合におけるTransformerの可能性を探る。
視覚トランスフォーマーの開発に成功し,パンとmsモダリティからモダリティ特有の特徴を抽出し,スペクトルと空間の特徴をマージするためのクロスアテンションモジュールを適用するために,自己アテンションを備えた2ストリームネットワークを設計した。
パンシャープ画像は、強化された融合特徴から生成される。
GaoFen-2 および WorldView-3 画像に対する大規模な実験により、Transformer ベースのモデルが印象的な結果をもたらし、既存の CNN ベースの手法よりも優れており、これは Transformer をパンシャーピングタスクに導入する大きな可能性を示している。
コードはhttps://github.com/zhysora/panformerで入手できる。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - HyperTransformer: A Textural and Spectral Feature Fusion Transformer for
Pansharpening [60.89777029184023]
Pansharpeningは、登録された高分解能パノクロマトグラフィー画像(PAN)と低分解能ハイパースペクトル画像(LR-HSI)を融合して、高スペクトル・空間解像度の高分解能HSIを生成することを目的としている。
既存のパンシャルペン法は、HRテクスチャの特徴をPANからLR-HSIに伝達するアテンション機構を無視し、空間的およびスペクトル的歪みをもたらす。
本稿では, LR-HSI と PAN の特徴をそれぞれ変換器のクエリとキーとして定式化する HyperTransformer という, パンシャーピングのための新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-03-04T18:59:08Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。