論文の概要: MMFormer: Multimodal Transformer Using Multiscale Self-Attention for
Remote Sensing Image Classification
- arxiv url: http://arxiv.org/abs/2303.13101v1
- Date: Thu, 23 Mar 2023 08:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:14:50.169724
- Title: MMFormer: Multimodal Transformer Using Multiscale Self-Attention for
Remote Sensing Image Classification
- Title(参考訳): mmformer: リモートセンシング画像分類のためのマルチスケールセルフアテンションを用いたマルチモーダルトランスフォーマー
- Authors: Bo Zhang, Zuheng Ming, Wei Feng, Yaqian Liu, Liang He, Kaixing Zhao
- Abstract要約: ハイパースペクトル画像(HSI)と光検出・ランドング(LiDAR)などのデータソースを用いた、リモートセンシング(RS)画像分類のための新しいマルチモーダルトランス (MMFormer) を提案する。
畳み込みの帰納バイアスを欠く従来のビジョントランスフォーマー(ViT)と比較して、まず、HSIとLiDARのマルチモーダルデータからパッチをトークン化するために、MMFormerに畳み込み層を導入します。
提案したMSMHSAモジュールは、HSIをLiDARデータに粗い方法で組み込むことで、きめ細かい表現を学べる。
- 参考スコア(独自算出の注目度): 16.031616431297213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To benefit the complementary information between heterogeneous data, we
introduce a new Multimodal Transformer (MMFormer) for Remote Sensing (RS) image
classification using Hyperspectral Image (HSI) accompanied by another source of
data such as Light Detection and Ranging (LiDAR). Compared with traditional
Vision Transformer (ViT) lacking inductive biases of convolutions, we first
introduce convolutional layers to our MMFormer to tokenize patches from
multimodal data of HSI and LiDAR. Then we propose a Multi-scale Multi-head
Self-Attention (MSMHSA) module to address the problem of compatibility which
often limits to fuse HSI with high spectral resolution and LiDAR with
relatively low spatial resolution. The proposed MSMHSA module can incorporate
HSI to LiDAR data in a coarse-to-fine manner enabling us to learn a
fine-grained representation. Extensive experiments on widely used benchmarks
(e.g., Trento and MUUFL) demonstrate the effectiveness and superiority of our
proposed MMFormer for RS image classification.
- Abstract(参考訳): ヘテロジニアスデータ間の相補的情報を活用するために,光検出やラング(LiDAR)などの他のデータソースを伴うハイパースペクトル画像(HSI)を用いた,リモートセンシング(RS)画像分類のための新しいマルチモーダルトランスフォーマ(MMFormer)を導入する。
畳み込みの帰納バイアスを欠く従来のビジョントランスフォーマー(ViT)と比較して、まず、HSIとLiDARのマルチモーダルデータからパッチをトークン化するために、MMFormerに畳み込み層を導入します。
次に,高スペクトル分解能のHSIと比較的低空間分解能のLiDARに制限される互換性の問題に対処するため,MSMHSA(Multi-scale Multi-head Self-Attention)モジュールを提案する。
提案したMSMHSAモジュールは、HSIをLiDARデータに粗い方法で組み込むことで、きめ細かい表現を学べる。
広く使われているベンチマーク(trento や muufl など)に関する広範な実験は、提案する rs 画像分類における mmformer の有効性と優位性を示している。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images [1.8160945635344523]
オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
チャネルワイズ接続によるマルチモーダル入力を直接結合するのではなく,チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、コヒーレントなマルチモーダル入力の構築を可能にする。
また、固定次元を維持しつつ、非シフトブロックに畳み込み層を組み込んだSwin変換器に基づく新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - TFormer: A throughout fusion transformer for multi-modal skin lesion
diagnosis [6.899641625551976]
我々は,MSLDで十分な情報干渉を行うために,純粋なトランスフォーマーベースのTFormer(スルーアウト・フュージョン・トランスフォーマー)を提案する。
そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,ステージバイステージ方式で異なる画像モダリティ間で情報を融合する。
我々のTFormerは、他の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-11-21T12:07:05Z) - Decoupled-and-Coupled Networks: Self-Supervised Hyperspectral Image
Super-Resolution with Subpixel Fusion [67.35540259040806]
サブピクセルレベルのHS超解像フレームワークを提案する。
名前が示すように、DC-Netはまず入力を共通(またはクロスセンサー)とセンサー固有のコンポーネントに分離する。
我々は,CSUネットの裏側に自己教師付き学習モジュールを付加し,素材の整合性を保証し,復元されたHS製品の詳細な外観を向上する。
論文 参考訳(メタデータ) (2022-05-07T23:40:36Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Swin Transformer for Fast MRI [12.28925347961542]
SwinMRは、高速MRI再構成のための新しいSwin変換器ベースの方法である。
ネットワークは入力モジュール(IM)、特徴抽出モジュール(FE)、出力モジュール(OM)で構成される。
論文 参考訳(メタデータ) (2022-01-10T09:32:32Z) - Boosting Image Super-Resolution Via Fusion of Complementary Information
Captured by Multi-Modal Sensors [21.264746234523678]
イメージスーパーレゾリューション(sr)は、低解像度光センサの画質を向上させる有望な技術である。
本稿では,安価なチャネル(可視・深度)からの補完情報を活用して,少ないパラメータを用いて高価なチャネル(熱)の画像品質を向上させる。
論文 参考訳(メタデータ) (2020-12-07T02:15:28Z) - DML-GANR: Deep Metric Learning With Generative Adversarial Network
Regularization for High Spatial Resolution Remote Sensing Image Retrieval [9.423185775609426]
我々は,HSR-RSI検索のためのDML-GANR(Generative Adversarial Network regularization)を用いたディープメトリック学習手法を開発した。
3つのデータセットの実験結果から,HSR-RSI検索における最先端技術よりもDML-GANRの方が優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-07T02:26:03Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。