論文の概要: Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2310.13876v1
- Date: Sat, 21 Oct 2023 00:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:49:21.632674
- Title: Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images
- Title(参考訳): クロスチャネルアテンションを用いたリモートセンシング画像の物体検出のためのマルチモーダルトランス
- Authors: Bissmella Bahaduri, Zuheng Ming, Fangchen Feng, Anissa Mokraou
- Abstract要約: オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
チャネルワイズ接続によるマルチモーダル入力を直接結合するのではなく,チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、コヒーレントなマルチモーダル入力の構築を可能にする。
また、固定次元を維持しつつ、非シフトブロックに畳み込み層を組み込んだSwin変換器に基づく新しいアーキテクチャを導入する。
- 参考スコア(独自算出の注目度): 1.8160945635344523
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object detection in Remote Sensing Images (RSI) is a critical task for
numerous applications in Earth Observation (EO). Unlike general object
detection, object detection in RSI has specific challenges: 1) the scarcity of
labeled data in RSI compared to general object detection datasets, and 2) the
small objects presented in a high-resolution image with a vast background. To
address these challenges, we propose a multimodal transformer exploring
multi-source remote sensing data for object detection. Instead of directly
combining the multimodal input through a channel-wise concatenation, which
ignores the heterogeneity of different modalities, we propose a cross-channel
attention module. This module learns the relationship between different
channels, enabling the construction of a coherent multimodal input by aligning
the different modalities at the early stage. We also introduce a new
architecture based on the Swin transformer that incorporates convolution layers
in non-shifting blocks while maintaining fixed dimensions, allowing for the
generation of fine-to-coarse representations with a favorable
accuracy-computation trade-off. The extensive experiments prove the
effectiveness of the proposed multimodal fusion module and architecture,
demonstrating their applicability to multimodal aerial imagery.
- Abstract(参考訳): リモートセンシング画像(RSI)における物体検出は、地球観測(EO)における多くの応用にとって重要な課題である。
一般的な物体検出とは異なり、RSIにおける物体検出には特別な課題がある。
1)RSIにおけるラベル付きデータの欠如と一般オブジェクト検出データセットとの比較
2)背景が広い高解像度画像で提示された小物体。
これらの課題に対処するため,オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
異なるモダリティの不均一性を無視するチャネルワイド結合によるマルチモーダル入力を直接結合するのではなく、チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、初期段階で異なるモダリティを調整してコヒーレントなマルチモーダル入力を構築することができる。
また,固定次元を維持しつつ,非シフトブロックに畳み込み層を組み込んだスウィントランスに基づく新しいアーキテクチャを導入することで,精度と計算のトレードオフを良好に生み出すことができる。
広範な実験により、提案されたマルチモーダル融合モジュールとアーキテクチャの有効性が証明され、マルチモーダル空中画像への適用性が示された。
関連論文リスト
- RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images [13.98477009749389]
我々は,RemoteDet-Mambaと呼ばれる,四方向選択的走査型融合方式を用いたマルチモーダルリモートセンシングネットワークを提案する。
RemoteDet-Mambaは、単一モードのローカル機能の学習とパッチレベルのグローバル機能の統合を同時に促進する。
DroneVehicleデータセットの実験結果は、RemoteDet-Mambaの有効性を示している。
論文 参考訳(メタデータ) (2024-10-17T13:20:20Z) - SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Cross-Modality Attentive Feature Fusion for Object Detection in
Multispectral Remote Sensing Imagery [0.6853165736531939]
マルチスペクトルリモートセンシング画像ペアの相補的な情報を融合するクロスモダリティは、検出アルゴリズムの知覚能力を向上させることができる。
本稿では,共通モダリティと差分モダリティを併用した,新規で軽量なマルチスペクトル特徴融合法を提案する。
提案手法は,最先端の性能を低コストで実現することができる。
論文 参考訳(メタデータ) (2021-12-06T13:12:36Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。