Fugu-MT 論文翻訳(概要): Multimodal Fusion Transformer for Remote Sensing Image Classification

論文の概要: Multimodal Fusion Transformer for Remote Sensing Image Classification

arxiv url: http://arxiv.org/abs/2203.16952v1
Date: Thu, 31 Mar 2022 11:18:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-02 00:26:48.295354
Title: Multimodal Fusion Transformer for Remote Sensing Image Classification
Title（参考訳）: リモートセンシング画像分類のためのマルチモーダル核融合トランス
Authors: Swalpa Kumar Roy, Ankur Deria, Danfeng Hong, Behnood Rasti, Antonio Plaza, Jocelyn Chanussot
Abstract要約: 視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクのトレンドとなっている。ハイパースペクトル画像(HSI)分類のための新しいMFT(Multimodal fusion transformer)ネットワークを導入する。
参考スコア（独自算出の注目度）: 35.57881383390397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision transformer (ViT) has been trending in image classification tasks due to its promising performance when compared to convolutional neural networks (CNNs). As a result, many researchers have tried to incorporate ViT models in hyperspectral image (HSI) classification tasks, but without achieving satisfactory performance. To this paper, we introduce a new multimodal fusion transformer (MFT) network for HSI land-cover classification, which utilizes other sources of multimodal data in addition to HSI. Instead of using conventional feature fusion techniques, other multimodal data are used as an external classification (CLS) token in the transformer encoder, which helps achieving better generalization. ViT and other similar transformer models use a randomly initialized external classification token {and fail to generalize well}. However, the use of a feature embedding derived from other sources of multimodal data, such as light detection and ranging (LiDAR), offers the potential to improve those models by means of a CLS. The concept of tokenization is used in our work to generate CLS and HSI patch tokens, helping to learn key features in a reduced feature space. We also introduce a new attention mechanism for improving the exchange of information between HSI tokens and the CLS (e.g., LiDAR) token. Extensive experiments are carried out on widely used and benchmark datasets i.e., the University of Houston, Trento, University of Southern Mississippi Gulfpark (MUUFL), and Augsburg. In the results section, we compare the proposed MFT model with other state-of-the-art transformer models, classical CNN models, as well as conventional classifiers. The superior performance achieved by the proposed model is due to the use of multimodal information as external classification tokens.
Abstract（参考訳）: vision transformer (vit) は畳み込みニューラルネットワーク (cnns) と比較して有望な性能を持つため、画像分類タスクにおいてトレンドとなっている。その結果、多くの研究者が高スペクトル画像(HSI)分類タスクにViTモデルを組み込もうとしたが、良好な性能は得られなかった。本稿では,hsiに加え,他のマルチモーダルデータ源を利用したhsi土地被覆分類のためのマルチモーダル核融合トランス(mft)ネットワークを提案する。従来の機能融合技術を使う代わりに、他のマルチモーダルデータはトランスフォーマーエンコーダの外部分類(cls)トークンとして使われ、より良い一般化を達成するのに役立つ。 ViTや他の類似の変換器モデルは、ランダムに初期化された外部分類トークン {and fail to generalize well} を使用する。しかし、光検出・測光(LiDAR)などの他のマルチモーダルデータ源から派生した特徴埋め込みを使用することで、CLSを用いてこれらのモデルを改善することができる。トークン化の概念は、私たちの研究でCLSとHSIパッチトークンの生成に使われています。また,HSIトークンとCLS(LiDAR)トークン間の情報交換を改善するための新しい注意機構を導入する。ヒューストン大学、トレント大学、南ミシシッピ州ガルフパーク大学(MUUFL)、アウクスブルク大学など、広く使われているベンチマークデータセットで大規模な実験が行われている。その結果,提案したMTTモデルと他の最先端トランスモデル,古典的CNNモデル,および従来の分類器との比較を行った。提案モデルによる優れた性能は、外部分類トークンとしてマルチモーダル情報を使用することによるものである。

関連論文リスト

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文参考訳（メタデータ） (2025-06-15T22:42:57Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
MART: MultiscAle Relational Transformer Networks for Multi-agent Trajectory Prediction [5.8919870666241945]
マルチエージェント軌道予測のためのMultiplescleimat Transformer (MART) ネットワークを提案する。 MARTは、変圧器機械の個人およびグループ動作を考えるためのハイパーグラフトランスフォーマーアーキテクチャである。さらに,実環境における複雑なグループ関係の推論を目的としたAdaptive Group Estor (AGE)を提案する。
論文参考訳（メタデータ） (2024-07-31T14:31:49Z)
DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文参考訳（メタデータ） (2024-07-18T22:15:35Z)
CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-07-09T08:47:13Z)
CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文参考訳（メタデータ） (2023-12-14T01:33:18Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。 ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文参考訳（メタデータ） (2021-08-03T18:04:31Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文参考訳（メタデータ） (2021-05-12T09:30:26Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文参考訳（メタデータ） (2021-03-27T13:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。