Fugu-MT 論文翻訳(概要): Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images

論文の概要: Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images

arxiv url: http://arxiv.org/abs/2310.13876v1
Date: Sat, 21 Oct 2023 00:56:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 04:49:21.632674
Title: Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images
Title（参考訳）: クロスチャネルアテンションを用いたリモートセンシング画像の物体検出のためのマルチモーダルトランス
Authors: Bissmella Bahaduri, Zuheng Ming, Fangchen Feng, Anissa Mokraou
Abstract要約: オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。チャネルワイズ接続によるマルチモーダル入力を直接結合するのではなく,チャネル間アテンションモジュールを提案する。このモジュールは異なるチャネル間の関係を学習し、コヒーレントなマルチモーダル入力の構築を可能にする。また、固定次元を維持しつつ、非シフトブロックに畳み込み層を組み込んだSwin変換器に基づく新しいアーキテクチャを導入する。
参考スコア（独自算出の注目度）: 1.8160945635344523
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Object detection in Remote Sensing Images (RSI) is a critical task for numerous applications in Earth Observation (EO). Unlike general object detection, object detection in RSI has specific challenges: 1) the scarcity of labeled data in RSI compared to general object detection datasets, and 2) the small objects presented in a high-resolution image with a vast background. To address these challenges, we propose a multimodal transformer exploring multi-source remote sensing data for object detection. Instead of directly combining the multimodal input through a channel-wise concatenation, which ignores the heterogeneity of different modalities, we propose a cross-channel attention module. This module learns the relationship between different channels, enabling the construction of a coherent multimodal input by aligning the different modalities at the early stage. We also introduce a new architecture based on the Swin transformer that incorporates convolution layers in non-shifting blocks while maintaining fixed dimensions, allowing for the generation of fine-to-coarse representations with a favorable accuracy-computation trade-off. The extensive experiments prove the effectiveness of the proposed multimodal fusion module and architecture, demonstrating their applicability to multimodal aerial imagery.
Abstract（参考訳）: リモートセンシング画像(RSI)における物体検出は、地球観測(EO)における多くの応用にとって重要な課題である。一般的な物体検出とは異なり、RSIにおける物体検出には特別な課題がある。 1)RSIにおけるラベル付きデータの欠如と一般オブジェクト検出データセットとの比較 2)背景が広い高解像度画像で提示された小物体。これらの課題に対処するため,オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。異なるモダリティの不均一性を無視するチャネルワイド結合によるマルチモーダル入力を直接結合するのではなく、チャネル間アテンションモジュールを提案する。このモジュールは異なるチャネル間の関係を学習し、初期段階で異なるモダリティを調整してコヒーレントなマルチモーダル入力を構築することができる。また,固定次元を維持しつつ,非シフトブロックに畳み込み層を組み込んだスウィントランスに基づく新しいアーキテクチャを導入することで,精度と計算のトレードオフを良好に生み出すことができる。広範な実験により、提案されたマルチモーダル融合モジュールとアーキテクチャの有効性が証明され、マルチモーダル空中画像への適用性が示された。

関連論文リスト

LSFDNet: A Single-Stage Fusion and Detection Network for Ships Using SWIR and LWIR [16.16208006025223]
船舶検出には短波赤外(SWIR)と長波赤外(LWIR)が使用される。 LSFDNetと呼ばれる新しい単一ステージ画像融合検出アルゴリズムを提案する。このアルゴリズムは画像融合とオブジェクト検出サブタスクネットワーク間の特徴的相互作用を利用する。 2つのデータセット上での単段核融合検出アルゴリズムの優位性を検証した。
論文参考訳（メタデータ） (2025-07-28T07:13:55Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文参考訳（メタデータ） (2025-03-14T08:31:21Z)
COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection [9.913133285133998]
単一モードのオブジェクト検出タスクは、多種多様なシナリオに遭遇する際のパフォーマンス劣化を経験することが多い。マルチモーダルオブジェクト検出タスクは、様々なモダリティからのデータを統合することで、オブジェクト機能に関するより包括的な情報を提供することができる。本稿では,CrOss-Mamba相互作用とOffset-Guided融合フレームワークという新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T01:14:48Z)
RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images [13.98477009749389]
我々は,RemoteDet-Mambaと呼ばれる,四方向選択的走査型融合方式を用いたマルチモーダルリモートセンシングネットワークを提案する。 RemoteDet-Mambaは、単一モードのローカル機能の学習とパッチレベルのグローバル機能の統合を同時に促進する。 DroneVehicleデータセットの実験結果は、RemoteDet-Mambaの有効性を示している。
論文参考訳（メタデータ） (2024-10-17T13:20:20Z)
SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文参考訳（メタデータ） (2024-10-15T07:26:39Z)
A Dual Attentive Generative Adversarial Network for Remote Sensing Image Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。 DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文参考訳（メタデータ） (2023-10-03T08:26:27Z)
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文参考訳（メタデータ） (2023-05-17T06:48:35Z)
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-11-26T02:40:28Z)
Unsupervised Misaligned Infrared and Visible Image Fusion via Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文参考訳（メタデータ） (2022-05-24T07:51:57Z)
Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文参考訳（メタデータ） (2022-03-30T11:44:56Z)
Cross-Modality Attentive Feature Fusion for Object Detection in Multispectral Remote Sensing Imagery [0.6853165736531939]
マルチスペクトルリモートセンシング画像ペアの相補的な情報を融合するクロスモダリティは、検出アルゴリズムの知覚能力を向上させることができる。本稿では,共通モダリティと差分モダリティを併用した,新規で軽量なマルチスペクトル特徴融合法を提案する。提案手法は,最先端の性能を低コストで実現することができる。
論文参考訳（メタデータ） (2021-12-06T13:12:36Z)
Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文参考訳（メタデータ） (2021-10-30T15:34:12Z)
Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文参考訳（メタデータ） (2021-09-29T12:23:41Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。