論文の概要: Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching
- arxiv url: http://arxiv.org/abs/2507.19118v1
- Date: Fri, 25 Jul 2025 09:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.909849
- Title: Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching
- Title(参考訳): 画像特徴マッチングによるリモートセンシング対象検出のための空間的時間融合注意
- Authors: Abu Sadat Mohammad Salehin Amit, Xiaoli Zhang, Md Masum Billa Shagar, Zhaojun Liu, Xiongfei Li, Fanlong Meng,
- Abstract要約: 参照画像とクエリ画像の両方で独立に検出されたスケール不変キーポイントを統合することで特徴表現を強化する機構を提案する。
まず、複数の画像領域からの情報を同時に活用する対応マップを作成し、次に、類似性マッチングプロセスを分類タスクとして再構成することで、特徴マッチングを改善する。
改良された特徴マッチングの実用性を示すために,HRSC2016およびDOTAベンチマークデータセットを用いてオブジェクト検出タスクのCSTFを評価する。
- 参考スコア(独自算出の注目度): 15.57849268814515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively describing features for cross-modal remote sensing image matching remains a challenging task due to the significant geometric and radiometric differences between multimodal images. Existing methods primarily extract features at the fully connected layer but often fail to capture cross-modal similarities effectively. We propose a Cross Spatial Temporal Fusion (CSTF) mechanism that enhances feature representation by integrating scale-invariant keypoints detected independently in both reference and query images. Our approach improves feature matching in two ways: First, by creating correspondence maps that leverage information from multiple image regions simultaneously, and second, by reformulating the similarity matching process as a classification task using SoftMax and Fully Convolutional Network (FCN) layers. This dual approach enables CSTF to maintain sensitivity to distinctive local features while incorporating broader contextual information, resulting in robust matching across diverse remote sensing modalities. To demonstrate the practical utility of improved feature matching, we evaluate CSTF on object detection tasks using the HRSC2016 and DOTA benchmark datasets. Our method achieves state-of-theart performance with an average mAP of 90.99% on HRSC2016 and 90.86% on DOTA, outperforming existing models. The CSTF model maintains computational efficiency with an inference speed of 12.5 FPS. These results validate that our approach to crossmodal feature matching directly enhances downstream remote sensing applications such as object detection.
- Abstract(参考訳): クロスモーダルリモートセンシング画像マッチングの特徴を効果的に記述することは、マルチモーダル画像間の有意な幾何学的およびラジオメトリック的差異のため、依然として難しい課題である。
既存の手法は、主に完全に接続された層で特徴を抽出するが、しばしばモダル間の類似性を効果的に捉えることができない。
参照画像とクエリ画像の両方で独立に検出されるスケール不変キーポイントを統合することで特徴表現を強化するクロス空間時間融合(CSTF)機構を提案する。
まず、複数の画像領域からの情報を同時に活用する対応マップを作成し、次に、SoftMax層とFully Convolutional Network (FCN)層を用いて類似性マッチングプロセスを分類タスクとして再構成することで、特徴マッチングを改善する。
この2つのアプローチにより、CSTFは、より広いコンテキスト情報を取り込みながら、固有の局所的特徴に対する感度を維持することができ、様々なリモートセンシングモダリティ間で堅牢なマッチングを実現する。
改良された特徴マッチングの実用性を示すために,HRSC2016およびDOTAベンチマークデータセットを用いてオブジェクト検出タスクのCSTFを評価する。
HRSC2016では平均mAPが90.99%,DOTAでは90.86%,既存モデルでは90.86%であった。
CSTFモデルは12.5 FPSの推論速度で計算効率を維持する。
これらの結果から,クロスモーダルな特徴マッチングへのアプローチは,オブジェクト検出などの下流リモートセンシングアプリケーションを直接強化することを示す。
関連論文リスト
- FPDANet: A Multi-Section Classification Model for Intelligent Screening of Fetal Ultrasound [2.255017160735307]
本稿では,これらの課題に対処するため,二国間マルチスケール情報融合ネットワークFPDANetを提案する。
具体的には,特徴の類似性を利用した位置注意機構(DAN)モジュールを設計する。
さらに,FPAN情報融合モジュールを設計し,コンテキストおよびグローバルな特徴の依存関係を抽出する。
論文 参考訳(メタデータ) (2025-06-06T13:00:17Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Cross-Modality Attentive Feature Fusion for Object Detection in
Multispectral Remote Sensing Imagery [0.6853165736531939]
マルチスペクトルリモートセンシング画像ペアの相補的な情報を融合するクロスモダリティは、検出アルゴリズムの知覚能力を向上させることができる。
本稿では,共通モダリティと差分モダリティを併用した,新規で軽量なマルチスペクトル特徴融合法を提案する。
提案手法は,最先端の性能を低コストで実現することができる。
論文 参考訳(メタデータ) (2021-12-06T13:12:36Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。