論文の概要: Swin2-MoSE: A New Single Image Super-Resolution Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2404.18924v1
- Date: Mon, 29 Apr 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:39:07.404681
- Title: Swin2-MoSE: A New Single Image Super-Resolution Model for Remote Sensing
- Title(参考訳): Swin2-MoSE: リモートセンシングのための新しい単一画像超解像モデル
- Authors: Leonardo Rossi, Vittorio Bernuzzi, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati,
- Abstract要約: 本稿では,Swin2SRの拡張版であるSwin2-MoSEモデルを提案する。
このモデルでは、すべてのTransformerブロック内のFeed-Forwardを置き換えるために、Mixture-of-Experts (MoE) を拡張したMoE-SMを導入している。
実験の結果,Swin2-MoSEは最大0.377 0.958 dB (PSNR) でSOTAより2x, 3x, 4xの分解能向上に優れていた。
- 参考スコア(独自算出の注目度): 2.115789253980982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the limitations of current optical and sensor technologies and the high cost of updating them, the spectral and spatial resolution of satellites may not always meet desired requirements. For these reasons, Remote-Sensing Single-Image Super-Resolution (RS-SISR) techniques have gained significant interest. In this paper, we propose Swin2-MoSE model, an enhanced version of Swin2SR. Our model introduces MoE-SM, an enhanced Mixture-of-Experts (MoE) to replace the Feed-Forward inside all Transformer block. MoE-SM is designed with Smart-Merger, and new layer for merging the output of individual experts, and with a new way to split the work between experts, defining a new per-example strategy instead of the commonly used per-token one. Furthermore, we analyze how positional encodings interact with each other, demonstrating that per-channel bias and per-head bias can positively cooperate. Finally, we propose to use a combination of Normalized-Cross-Correlation (NCC) and Structural Similarity Index Measure (SSIM) losses, to avoid typical MSE loss limitations. Experimental results demonstrate that Swin2-MoSE outperforms SOTA by up to 0.377 ~ 0.958 dB (PSNR) on task of 2x, 3x and 4x resolution-upscaling (Sen2Venus and OLI2MSI datasets). We show the efficacy of Swin2-MoSE, applying it to a semantic segmentation task (SeasoNet dataset). Code and pretrained are available on https://github.com/IMPLabUniPr/swin2-mose/tree/official_code
- Abstract(参考訳): 現在の光学・センサー技術の限界と更新コストの高騰により、衛星のスペクトル分解能と空間分解能は常に望ましい要件を満たすとは限らない。
これらの理由から、RS-SISR(Remote-Sensing Single-Image Super-Resolution)技術が注目されている。
本稿では,Swin2SRの拡張版であるSwin2-MoSEモデルを提案する。
このモデルでは、すべてのTransformerブロック内のFeed-Forwardを置き換えるために、Mixture-of-Experts (MoE) を拡張したMoE-SMを導入している。
MoE-SMはSmart-Mergerと、個々の専門家のアウトプットをマージする新しいレイヤで設計されており、専門家間で作業を分割する新しい方法として、一般的に使用される個々の専門家ではなく、新しいサンプルごとの戦略を定義する。
さらに、位置エンコーディングが相互にどのように相互作用するかを分析し、チャネルごとのバイアスと頭ごとのバイアスが正に協調することを示した。
最後に, 正規化相関(NCC)と構造類似度指数(SSIM)の損失を組み合わせ, 典型的なMSE損失の制限を回避することを提案する。
実験の結果,Swin2-MoSEは2x,3x,4x解像度アップスケーリング(Sen2VenusおよびOLI2MSIデータセット)のタスクにおいて最大0.377 ~0.958 dB(PSNR)でSOTAを上回った。
セマンティックセグメンテーションタスク(SeasoNetデータセット)に適用し,Swin2-MoSEの有効性を示す。
コードと事前トレーニングはhttps://github.com/IMPLabUniPr/swin2-mose/tree/official_codeで利用可能である。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Enhancing Retinal Vascular Structure Segmentation in Images With a Novel
Design Two-Path Interactive Fusion Module Model [6.392575673488379]
網膜血管セグメンテーションの精度を高めるために設計されたSwin-Res-Netについて紹介する。
Swin-Res-Netは、パーティショニングに変位のあるシフトウィンドウを使用するSwin Transformerを使用している。
提案したアーキテクチャは,他の公開されたモデルに適合するか,あるいは超越するかという,優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-03-03T01:36:11Z) - Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Spatiotemporal Feature Learning Based on Two-Step LSTM and Transformer
for CT Scans [2.3682456328966115]
我々は、新型コロナウイルスの症状分類を徹底的に行うための、新しい、効果的、2段階のアプローチを提案する。
まず,従来のバックボーンネットワークにより,CTスキャンにおける各スライスの意味的特徴埋め込みを抽出する。
そこで我々は,時間的特徴学習を扱うために,LSTMとTransformerベースのサブネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-04T16:59:05Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - Enforcing Mutual Consistency of Hard Regions for Semi-supervised Medical
Image Segmentation [68.9233942579956]
半教師型医用画像セグメンテーションにおいて,ラベルのないハード領域を活用するための新しい相互整合性ネットワーク(MC-Net+)を提案する。
MC-Net+モデルは、限られたアノテーションで訓練された深いモデルは、非常に不確実で容易に分類された予測を出力する傾向があるという観察に動機づけられている。
MC-Net+のセグメンテーション結果と、最先端の5つの半教師付きアプローチを3つの公開医療データセットで比較した。
論文 参考訳(メタデータ) (2021-09-21T04:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。