論文の概要: Fus-MAE: A cross-attention-based data fusion approach for Masked
Autoencoders in remote sensing
- arxiv url: http://arxiv.org/abs/2401.02764v1
- Date: Fri, 5 Jan 2024 11:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:19:17.635547
- Title: Fus-MAE: A cross-attention-based data fusion approach for Masked
Autoencoders in remote sensing
- Title(参考訳): Fus-MAE:リモートセンシングにおけるマスクオートエンコーダのクロスアテンションに基づくデータ融合手法
- Authors: Hugo Chan-To-Hing, Bharadwaj Veeravalli
- Abstract要約: Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。
実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
- 参考スコア(独自算出の注目度): 5.990692497580643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised frameworks for representation learning have recently stirred
up interest among the remote sensing community, given their potential to
mitigate the high labeling costs associated with curating large satellite image
datasets. In the realm of multimodal data fusion, while the often used
contrastive learning methods can help bridging the domain gap between different
sensor types, they rely on data augmentations techniques that require expertise
and careful design, especially for multispectral remote sensing data. A
possible but rather scarcely studied way to circumvent these limitations is to
use a masked image modelling based pretraining strategy. In this paper, we
introduce Fus-MAE, a self-supervised learning framework based on masked
autoencoders that uses cross-attention to perform early and feature-level data
fusion between synthetic aperture radar and multispectral optical data - two
modalities with a significant domain gap. Our empirical findings demonstrate
that Fus-MAE can effectively compete with contrastive learning strategies
tailored for SAR-optical data fusion and outperforms other masked-autoencoders
frameworks trained on a larger corpus.
- Abstract(参考訳): 大規模な衛星画像データセットのキュレーションに伴うラベル付けコストを軽減できる可能性から、表現学習のための自己監督型フレームワークは、最近リモートセンシングコミュニティの関心を喚起している。
マルチモーダルデータ融合の領域では、しばしば使用される対照的な学習手法は、異なるセンサータイプ間のドメインギャップを埋めるのに役立つが、専門知識と注意深い設計を必要とするデータ拡張技術、特にマルチスペクトルリモートセンシングデータに頼っている。
これらの制限を回避する方法として、マスク付き画像モデリングに基づく事前訓練戦略が考えられるが、ほとんど研究されていない。
本稿では,クロスアテンションを用いて合成開口レーダとマルチスペクトル光データとの早期および機能レベルのデータ融合を行うマスク型オートエンコーダに基づく自己教師あり学習フレームワークfus-maeを提案する。
実験結果から,fus-maeはsar-opticalデータ融合に適したコントラスト学習戦略と効果的に競合し,より大きなコーパスでトレーニングされた他のマスキングオートエンコーダフレームワークよりも優れていることが示された。
関連論文リスト
- MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning [3.520960737058199]
マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
論文 参考訳(メタデータ) (2024-08-08T06:16:00Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - Towards Efficient Information Fusion: Concentric Dual Fusion Attention Based Multiple Instance Learning for Whole Slide Images [2.428210413498989]
本稿では,CDFA-MIL(Concentric Dual Fusion Attention-MIL)フレームワークを紹介する。
CDFA-MILは、同心パッチを用いて、ポイント・ツー・ゾーン・アテンションとポイント・ツー・ポイント・コンセントリック・アテンションを組み合わせたものである。
そのアプリケーションは例外的な性能を示しており、既存のMILメソッドの精度と、著名なデータセットのF1スコアを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-21T12:23:29Z) - Efficient Multi-Resolution Fusion for Remote Sensing Data with Label
Uncertainty [0.7832189413179361]
本稿では,画素レベルのトレーニングラベルを必要とせず,マルチモーダル・マルチレゾリューションリモートセンサデータを融合する新しい手法を提案する。
探索空間を削減し,MIMRFフレームワークの効率を大幅に改善する二元ファジィ測度に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T17:34:32Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Enhancing Cross-Dataset Performance of Distracted Driving Detection With
Score-Softmax Classifier [7.302402275736439]
ディープニューラルネットワークは、車内ドライバのリアルタイム監視を可能にし、気晴らし、疲労、潜在的な危険のタイムリーな予測を容易にする。
最近の研究では、オーバーフィッティングによる信頼性の低いクロスデータセットのエンドツーエンドドライバの動作認識が明らかにされている。
Score-Softmax分類器を導入し、クラス間独立性とクラス内不確実性を高めることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-10-08T15:28:01Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。