論文の概要: Multimodal Fusion Transformer for Remote Sensing Image Classification
- arxiv url: http://arxiv.org/abs/2203.16952v2
- Date: Tue, 20 Jun 2023 17:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 06:15:42.702021
- Title: Multimodal Fusion Transformer for Remote Sensing Image Classification
- Title(参考訳): リモートセンシング画像分類のためのマルチモーダル核融合トランス
- Authors: Swalpa Kumar Roy, Ankur Deria, Danfeng Hong, Behnood Rasti, Antonio
Plaza, Jocelyn Chanussot
- Abstract要約: 視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
- 参考スコア(独自算出の注目度): 35.57881383390397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have been trending in image classification tasks
due to their promising performance when compared to convolutional neural
networks (CNNs). As a result, many researchers have tried to incorporate ViTs
in hyperspectral image (HSI) classification tasks. To achieve satisfactory
performance, close to that of CNNs, transformers need fewer parameters. ViTs
and other similar transformers use an external classification (CLS) token which
is randomly initialized and often fails to generalize well, whereas other
sources of multimodal datasets, such as light detection and ranging (LiDAR)
offer the potential to improve these models by means of a CLS. In this paper,
we introduce a new multimodal fusion transformer (MFT) network which comprises
a multihead cross patch attention (mCrossPA) for HSI land-cover classification.
Our mCrossPA utilizes other sources of complementary information in addition to
the HSI in the transformer encoder to achieve better generalization. The
concept of tokenization is used to generate CLS and HSI patch tokens, helping
to learn a {distinctive representation} in a reduced and hierarchical feature
space. Extensive experiments are carried out on {widely used benchmark}
datasets {i.e.,} the University of Houston, Trento, University of Southern
Mississippi Gulfpark (MUUFL), and Augsburg. We compare the results of the
proposed MFT model with other state-of-the-art transformers, classical CNNs,
and conventional classifiers models. The superior performance achieved by the
proposed model is due to the use of multihead cross patch attention. The source
code will be made available publicly at
\url{https://github.com/AnkurDeria/MFT}.}
- Abstract(参考訳): 視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクのトレンドとなっている。
その結果、多くの研究者が高スペクトル画像(HSI)分類タスクにViTを組み込もうとしている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
ViTや他の類似のトランスフォーマーは、ランダムに初期化され、しばしば一般化に失敗する外部分類(CLS)トークンを使用しているが、光の検出や測度(LiDAR)などのマルチモーダルデータセットの他のソースは、CLSを用いてこれらのモデルを改善する可能性を提供している。
本稿では,HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを提案する。
我々のmCrossPAは、変換器エンコーダのHSIに加えて、他の補完情報ソースを利用して、より優れた一般化を実現している。
トークン化の概念は、CLSとHSIパッチトークンの生成に使われ、縮小された階層的な特徴空間で {distinctive representation} を学ぶのに役立つ。
ヒューストン大学、トレント大学、ミシシッピ州南ガルフパーク大学(muufl)、アウクスブルク校の『広範囲に使われているベンチマーク』データセットで広範な実験が行われている。
MFTモデルと他の最先端変換器,古典的CNN,従来の分類器モデルとの比較を行った。
提案モデルにより達成された優れた性能はマルチヘッドクロスパッチアテンションの利用によるものである。
ソースコードは \url{https://github.com/AnkurDeria/MFT} で公開されている。
}
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。