論文の概要: MMFormer: Multimodal Transformer Using Multiscale Self-Attention for
Remote Sensing Image Classification
- arxiv url: http://arxiv.org/abs/2303.13101v1
- Date: Thu, 23 Mar 2023 08:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:14:50.169724
- Title: MMFormer: Multimodal Transformer Using Multiscale Self-Attention for
Remote Sensing Image Classification
- Title(参考訳): mmformer: リモートセンシング画像分類のためのマルチスケールセルフアテンションを用いたマルチモーダルトランスフォーマー
- Authors: Bo Zhang, Zuheng Ming, Wei Feng, Yaqian Liu, Liang He, Kaixing Zhao
- Abstract要約: ハイパースペクトル画像(HSI)と光検出・ランドング(LiDAR)などのデータソースを用いた、リモートセンシング(RS)画像分類のための新しいマルチモーダルトランス (MMFormer) を提案する。
畳み込みの帰納バイアスを欠く従来のビジョントランスフォーマー(ViT)と比較して、まず、HSIとLiDARのマルチモーダルデータからパッチをトークン化するために、MMFormerに畳み込み層を導入します。
提案したMSMHSAモジュールは、HSIをLiDARデータに粗い方法で組み込むことで、きめ細かい表現を学べる。
- 参考スコア(独自算出の注目度): 16.031616431297213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To benefit the complementary information between heterogeneous data, we
introduce a new Multimodal Transformer (MMFormer) for Remote Sensing (RS) image
classification using Hyperspectral Image (HSI) accompanied by another source of
data such as Light Detection and Ranging (LiDAR). Compared with traditional
Vision Transformer (ViT) lacking inductive biases of convolutions, we first
introduce convolutional layers to our MMFormer to tokenize patches from
multimodal data of HSI and LiDAR. Then we propose a Multi-scale Multi-head
Self-Attention (MSMHSA) module to address the problem of compatibility which
often limits to fuse HSI with high spectral resolution and LiDAR with
relatively low spatial resolution. The proposed MSMHSA module can incorporate
HSI to LiDAR data in a coarse-to-fine manner enabling us to learn a
fine-grained representation. Extensive experiments on widely used benchmarks
(e.g., Trento and MUUFL) demonstrate the effectiveness and superiority of our
proposed MMFormer for RS image classification.
- Abstract(参考訳): ヘテロジニアスデータ間の相補的情報を活用するために,光検出やラング(LiDAR)などの他のデータソースを伴うハイパースペクトル画像(HSI)を用いた,リモートセンシング(RS)画像分類のための新しいマルチモーダルトランスフォーマ(MMFormer)を導入する。
畳み込みの帰納バイアスを欠く従来のビジョントランスフォーマー(ViT)と比較して、まず、HSIとLiDARのマルチモーダルデータからパッチをトークン化するために、MMFormerに畳み込み層を導入します。
次に,高スペクトル分解能のHSIと比較的低空間分解能のLiDARに制限される互換性の問題に対処するため,MSMHSA(Multi-scale Multi-head Self-Attention)モジュールを提案する。
提案したMSMHSAモジュールは、HSIをLiDARデータに粗い方法で組み込むことで、きめ細かい表現を学べる。
広く使われているベンチマーク(trento や muufl など)に関する広範な実験は、提案する rs 画像分類における mmformer の有効性と優位性を示している。
関連論文リスト
- A Sinkhorn Regularized Adversarial Network for Image Guided DEM Super-resolution using Frequency Selective Hybrid Graph Transformer [4.383449961857098]
DEM(Digital Elevation Model)は、リモートセンシング(RS)ドメインにおいて、表面標高に関する様々なアプリケーションを分析するための重要な側面である。
本稿では、HRマルチスペクトル(MX)衛星画像を用いた高分解能(HR)DEMの生成をガイドとして扱う。
本稿では,Sinkhorn 距離を古典的 GAN で最適化する手法を提案する。
論文 参考訳(メタデータ) (2024-09-21T16:59:08Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization [21.846935203845728]
ローカル操作パイプラインは、強力なSAM、ChatGPT、生成モデルを組み込んだ設計である。
1)AIが操作する画像と実際の画像のペアが100万以上含まれる大規模なデータセット。
本稿では、シャドウトレーサ、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。
論文 参考訳(メタデータ) (2024-06-24T11:10:41Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - TFormer: A throughout fusion transformer for multi-modal skin lesion
diagnosis [6.899641625551976]
我々は,MSLDで十分な情報干渉を行うために,純粋なトランスフォーマーベースのTFormer(スルーアウト・フュージョン・トランスフォーマー)を提案する。
そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,ステージバイステージ方式で異なる画像モダリティ間で情報を融合する。
我々のTFormerは、他の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-11-21T12:07:05Z) - Decoupled-and-Coupled Networks: Self-Supervised Hyperspectral Image
Super-Resolution with Subpixel Fusion [67.35540259040806]
サブピクセルレベルのHS超解像フレームワークを提案する。
名前が示すように、DC-Netはまず入力を共通(またはクロスセンサー)とセンサー固有のコンポーネントに分離する。
我々は,CSUネットの裏側に自己教師付き学習モジュールを付加し,素材の整合性を保証し,復元されたHS製品の詳細な外観を向上する。
論文 参考訳(メタデータ) (2022-05-07T23:40:36Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Boosting Image Super-Resolution Via Fusion of Complementary Information
Captured by Multi-Modal Sensors [21.264746234523678]
イメージスーパーレゾリューション(sr)は、低解像度光センサの画質を向上させる有望な技術である。
本稿では,安価なチャネル(可視・深度)からの補完情報を活用して,少ないパラメータを用いて高価なチャネル(熱)の画像品質を向上させる。
論文 参考訳(メタデータ) (2020-12-07T02:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。