論文の概要: L-MCAT: Unpaired Multimodal Transformer with Contrastive Attention for Label-Efficient Satellite Image Classification
- arxiv url: http://arxiv.org/abs/2507.20259v1
- Date: Sun, 27 Jul 2025 13:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.362122
- Title: L-MCAT: Unpaired Multimodal Transformer with Contrastive Attention for Label-Efficient Satellite Image Classification
- Title(参考訳): L-MCAT:ラベル効率の良い衛星画像分類のためのコントラストアテンション付きマルチモーダルトランス
- Authors: Mitul Goswami, Mrinal Goswami,
- Abstract要約: 本稿では,ラベル効率のよいリモートセンシング画像分類のためのトランスフォーマーベースのフレームワークを提案する。
L-MCATは,(1)高次元センサ入力を統一的な埋め込み空間に圧縮するモダリティ・スペクトル適応器(MSA),(2)画素レベルの対応やラベルを伴わずに不均一なモダリティを整列させるアンペアド・マルチモーダルアライメントアライメント(U-MAA)の2つのコアイノベーションを導入している。
L-MCATはSEN12MSデータセットの全体的な精度を95.4%向上し、クラスごとに20ラベルしか使用せず、47倍のパラメータと23倍のFLを使用して、最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose the Lightweight Multimodal Contrastive Attention Transformer (L-MCAT), a novel transformer-based framework for label-efficient remote sensing image classification using unpaired multimodal satellite data. L-MCAT introduces two core innovations: (1) Modality-Spectral Adapters (MSA) that compress high-dimensional sensor inputs into a unified embedding space, and (2) Unpaired Multimodal Attention Alignment (U-MAA), a contrastive self-supervised mechanism integrated into the attention layers to align heterogeneous modalities without pixel-level correspondence or labels. L-MCAT achieves 95.4% overall accuracy on the SEN12MS dataset using only 20 labels per class, outperforming state-of-the-art baselines while using 47x fewer parameters and 23x fewer FLOPs than MCTrans. It maintains over 92% accuracy even under 50% spatial misalignment, demonstrating robustness for real-world deployment. The model trains end-to-end in under 5 hours on a single consumer GPU.
- Abstract(参考訳): ラベル効率のよいリモートセンシング画像分類のための新しいフレームワークであるL-MCAT(Lightweight Multimodal Contrastive Attention Transformer)を提案する。
L-MCATは,(1)高次元センサ入力を統一埋め込み空間に圧縮するモダリティ・スペクトル適応器(MSA),(2)画素レベルの対応やラベルを伴わずに異質なモダリティをアライメントするために,注目層に統合されたコントラスト型自己監督機構であるアンペアド・マルチモーダルアライメント(U-MAA)の2つの中心的イノベーションを導入している。
L-MCATは、SEN12MSデータセットの全体的な精度を95.4%向上し、クラス毎に20ラベルしか使用せず、47倍のパラメータと23倍のFLOPを使用して、最先端のベースラインを上回っている。
50%の空間的ミスアライメントでも92%以上の精度を維持し、現実世界の展開に堅牢性を示す。
このモデルは、1つの消費者向けGPUで5時間以内にエンドツーエンドでトレーニングする。
関連論文リスト
- AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - MASS: MoErging through Adaptive Subspace Selection [55.03293736484465]
モデルマージの新しいアプローチであるMASS(MoErging through Adaptive Subspace Selection)を提案する。
MASSはタスクごとに最も健全な特異なコンポーネントのみを格納し、それらを共有モデルにマージする。
我々は,8,14,20タスクのベンチマークに対して,ViT-B-16,ViT-B-32,ViT-L-14を用いて,CLIPに基づく画像分類のMASSを評価する。
論文 参考訳(メタデータ) (2025-04-06T08:49:52Z) - CROMA: Remote Sensing Representations with Contrastive Radar-Optical
Masked Autoencoders [2.7624021966289605]
リモートセンシングは、広範にラベル付き、空間的に整列したマルチモーダルデータを提供する。
コントラストと再構成を組み合わせたフレームワークであるCROMAを,リッチな一様・多様表現の学習のために提案する。
論文 参考訳(メタデータ) (2023-11-01T15:07:27Z) - Semi-MAE: Masked Autoencoders for Semi-supervised Vision Transformers [5.29690621203603]
Semi-MAEは、ビジュアル表現学習を支援するための並列MAEブランチで構成される、純粋なViTベースのSSLフレームワークである。
Semi-MAE は ImageNet の75.9% のトップ-1 の精度を10% のラベルで達成し、半教師付き画像分類における最先端技術を上回っている。
論文 参考訳(メタデータ) (2023-01-04T03:59:17Z) - MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation [19.83103856355554]
MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Self-Supervised Multimodal Fusion Transformer for Passive Activity
Recognition [2.35066982314539]
Wi-Fi信号は、医療などの分野において、人間の知覚と活動認識に重要な機会を提供する。
現在のシステムでは、複数のセンサーから取得した情報を効果的に利用して、異なるアクティビティを認識することはできない。
本稿では,マルチモーダル・マルチセンサ融合のための注意モデルであるFusion Transformerを提案する。
論文 参考訳(メタデータ) (2022-08-15T15:38:10Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Multi-level Binarized LSTM in EEG Classification for Wearable Devices [0.31498833540989407]
LSTM(Long Short-Term Memory)は、様々なシーケンシャルなアプリケーションで広く使われている。
バイナリLSTMはこの問題に対処するために導入されたが、脳波分類などのいくつかの応用において、かなりの精度の損失をもたらす。
計算量を著しく削減し,完全精度のLSTMにかなり近い精度で精度を確保できる,効率的なマルチレベル二値化LSTMを提案する。
論文 参考訳(メタデータ) (2020-04-19T17:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。