論文の概要: Transformer-based Multi-Modal Learning for Multi Label Remote Sensing
Image Classification
- arxiv url: http://arxiv.org/abs/2306.01523v1
- Date: Fri, 2 Jun 2023 13:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:49:46.146772
- Title: Transformer-based Multi-Modal Learning for Multi Label Remote Sensing
Image Classification
- Title(参考訳): マルチラベルリモートセンシング画像分類のためのトランスフォーマーに基づくマルチモーダル学習
- Authors: David Hoffmann, Kai Norman Clasen and Beg\"um Demir
- Abstract要約: リモートセンシング(RS)画像のマルチモーダルマルチラベル分類(MLC)フレームワークにおいて,新しいシンクロナイズドクラストークンフュージョン(SCT Fusion)アーキテクチャを導入する。
提案アーキテクチャは,各トランスフォーマーエンコーダブロックの後に,特別なクラストークンを同期させることにより,モジュール間の情報交換を行いながら,様々な入力モダリティを処理するために,モダリティ固有のアテンションベースのトランスフォーマーエンコーダを利用する。
同期は、クラストークンを訓練可能な融合変換と融合させ、結果としてすべてのモダリティの情報を含む同期クラストークンを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel Synchronized Class Token Fusion (SCT
Fusion) architecture in the framework of multi-modal multi-label classification
(MLC) of remote sensing (RS) images. The proposed architecture leverages
modality-specific attention-based transformer encoders to process varying input
modalities, while exchanging information across modalities by synchronizing the
special class tokens after each transformer encoder block. The synchronization
involves fusing the class tokens with a trainable fusion transformation,
resulting in a synchronized class token that contains information from all
modalities. As the fusion transformation is trainable, it allows to reach an
accurate representation of the shared features among different modalities.
Experimental results show the effectiveness of the proposed architecture over
single-modality architectures and an early fusion multi-modal architecture when
evaluated on a multi-modal MLC dataset.
The code of the proposed architecture is publicly available at
https://git.tu-berlin.de/rsim/sct-fusion.
- Abstract(参考訳): 本稿では,リモートセンシング(rs)画像のマルチモーダルマルチラベル分類(mlc)の枠組みにおいて,新しい同期型クラストークン融合(sct fusion)アーキテクチャを提案する。
提案アーキテクチャは,各トランスフォーマーエンコーダブロックの後に特別なクラストークンを同期させることにより,様々な入力モダリティの処理を行う。
同期は、クラストークンを訓練可能な融合変換と融合させ、結果としてすべてのモダリティの情報を含む同期クラストークンとなる。
融合変換は訓練可能であるため、異なるモダリティ間で共有された特徴の正確な表現に到達することができる。
実験の結果,マルチモーダルmlcデータセット上で評価した場合,単一モダリティアーキテクチャと早期融合マルチモーダルアーキテクチャに対する提案アーキテクチャの有効性が示された。
提案されたアーキテクチャのコードはhttps://git.tu-berlin.de/rsim/sct-fusionで公開されている。
関連論文リスト
- CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。