論文の概要: Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2310.13876v1
- Date: Sat, 21 Oct 2023 00:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:49:21.632674
- Title: Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images
- Title(参考訳): クロスチャネルアテンションを用いたリモートセンシング画像の物体検出のためのマルチモーダルトランス
- Authors: Bissmella Bahaduri, Zuheng Ming, Fangchen Feng, Anissa Mokraou
- Abstract要約: オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
チャネルワイズ接続によるマルチモーダル入力を直接結合するのではなく,チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、コヒーレントなマルチモーダル入力の構築を可能にする。
また、固定次元を維持しつつ、非シフトブロックに畳み込み層を組み込んだSwin変換器に基づく新しいアーキテクチャを導入する。
- 参考スコア(独自算出の注目度): 1.8160945635344523
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object detection in Remote Sensing Images (RSI) is a critical task for
numerous applications in Earth Observation (EO). Unlike general object
detection, object detection in RSI has specific challenges: 1) the scarcity of
labeled data in RSI compared to general object detection datasets, and 2) the
small objects presented in a high-resolution image with a vast background. To
address these challenges, we propose a multimodal transformer exploring
multi-source remote sensing data for object detection. Instead of directly
combining the multimodal input through a channel-wise concatenation, which
ignores the heterogeneity of different modalities, we propose a cross-channel
attention module. This module learns the relationship between different
channels, enabling the construction of a coherent multimodal input by aligning
the different modalities at the early stage. We also introduce a new
architecture based on the Swin transformer that incorporates convolution layers
in non-shifting blocks while maintaining fixed dimensions, allowing for the
generation of fine-to-coarse representations with a favorable
accuracy-computation trade-off. The extensive experiments prove the
effectiveness of the proposed multimodal fusion module and architecture,
demonstrating their applicability to multimodal aerial imagery.
- Abstract(参考訳): リモートセンシング画像(RSI)における物体検出は、地球観測(EO)における多くの応用にとって重要な課題である。
一般的な物体検出とは異なり、RSIにおける物体検出には特別な課題がある。
1)RSIにおけるラベル付きデータの欠如と一般オブジェクト検出データセットとの比較
2)背景が広い高解像度画像で提示された小物体。
これらの課題に対処するため,オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
異なるモダリティの不均一性を無視するチャネルワイド結合によるマルチモーダル入力を直接結合するのではなく、チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、初期段階で異なるモダリティを調整してコヒーレントなマルチモーダル入力を構築することができる。
また,固定次元を維持しつつ,非シフトブロックに畳み込み層を組み込んだスウィントランスに基づく新しいアーキテクチャを導入することで,精度と計算のトレードオフを良好に生み出すことができる。
広範な実験により、提案されたマルチモーダル融合モジュールとアーキテクチャの有効性が証明され、マルチモーダル空中画像への適用性が示された。
関連論文リスト
- DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Land-cover change detection using paired OpenStreetMap data and optical
high-resolution imagery via object-guided Transformer [33.345785788991975]
光高解像度画像とOpenStreetMap(OSM)データは、土地被覆変化検出のための2つの重要なデータソースである。
本稿では,ペアOSMデータと光学画像を用いた土地被覆変化の直接検出の先駆者となる。
論文 参考訳(メタデータ) (2023-10-04T09:26:44Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z) - RelationRS: Relationship Representation Network for Object Detection in
Aerial Images [15.269897893563417]
航空画像における物体検出のための関係表現ネットワーク(RelationRS)を提案する。
デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学習し、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。
複雑な背景を持つ画像の物体検出効果を改善するため、BVR(Bridging visual representations Module)が空中画像のフィールドに導入される。
論文 参考訳(メタデータ) (2021-10-13T14:02:33Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。