論文の概要: Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2603.06925v1
- Date: Fri, 06 Mar 2026 22:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.40897
- Title: Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images
- Title(参考訳): 可視・赤外線リモートセンシング画像のマスク強調アテンション融合に基づく小型目標検出
- Authors: Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An,
- Abstract要約: 本研究は、ESM-YOLO+を軽量可視赤外線融合ネットワークとして提示する。
検出を強化するために、ESM-YOLO+には2つの重要な革新が含まれている。
ESM-YOLO+は、リアルタイムデプロイメントの実践性と強力なパフォーマンスを統合している。
- 参考スコア(独自算出の注目度): 8.72869311285096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targets in remote sensing images are usually small, weakly textured, and easily disturbed by complex backgrounds, challenging high-precision detection with general algorithms. Building on our earlier ESM-YOLO, this work presents ESM-YOLO+ as a lightweight visible infrared fusion network. To enhance detection, ESM-YOLO+ includes two key innovations. (1) A Mask-Enhanced Attention Fusion (MEAF) module fuses features at the pixel level via learnable spatial masks and spatial attention, effectively aligning RGB and infrared features, enhancing small-target representation, and alleviating cross-modal misalignment and scale heterogeneity. (2) Training-time Structural Representation (SR) enhancement provides auxiliary supervision to preserve fine-grained spatial structures during training, boosting feature discriminability without extra inference cost. Extensive experiments on the VEDAI and DroneVehicle datasets validate ESM-YOLO+'s superiority. The model achieves 84.71\% mAP on VEDAI and 74.0\% mAP on DroneVehicle, while greatly reducing model complexity, with 93.6\% fewer parameters and 68.0\% lower GFLOPs than the baseline. These results confirm that ESM-YOLO+ integrates strong performance with practicality for real-time deployment, providing an effective solution for high-performance small-target detection in complex remote sensing scenes.
- Abstract(参考訳): リモートセンシング画像のターゲットは通常小さく、テクスチャが弱く、複雑な背景によって容易に妨害され、一般的なアルゴリズムで高精度検出に挑戦する。
初期のESM-YOLOに基づいて構築されたこの研究は、ESM-YOLO+を軽量可視赤外線融合ネットワークとして提示する。
検出を強化するために、ESM-YOLO+には2つの重要な革新が含まれている。
1) Mask-Enhanced Attention Fusion (MEAF)モジュールは,学習可能な空間マスクと空間的注意を通じて画素レベルの特徴を融合させ,RGBと赤外線の特徴を効果的に整列させ,小ターゲット表現を増強し,異種度を緩和する。
2)訓練時構造表現(SR)の強化は,訓練中に微細な空間構造を保存し,余分な推論コストを伴わない特徴識別性を向上する補助的指導を提供する。
VEDAIとDroneVehicleデータセットの大規模な実験は、ESM-YOLO+の優位性を検証する。
VEDAIでは84.71.% mAP、DroneVehicleでは74.0.% mAP、モデルの複雑さは93.6.%、ベースラインより68.0.%低い。
これらの結果から,ESM-YOLO+は実時間展開の実用性と高い性能を融合し,複雑なリモートセンシングシーンにおいて,高性能な小ターゲット検出のための効果的なソリューションを提供することがわかった。
関連論文リスト
- GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery [69.05066425853326]
シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを使って視覚的なシーンを積極的に探索することを可能にする。
これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。
筆者らは,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズームレジームをカバーするトレーニングフレームワークであるGeoEyes,(2)エージェント強化学習手法であるAdaZoom-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:50:55Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。
YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。
リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文 参考訳(メタデータ) (2025-04-15T13:13:22Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.1759252234439348]
本稿では,3つのキーコンポーネントを統合したMSCA-Netというネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
CABは、それらに重みを割り当て、低レベル情報と高レベル情報を統合することで、重要な特徴の表現を強化する。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - YOLO-MST: Multiscale deep learning method for infrared small target detection based on super-resolution and YOLO [0.18641315013048293]
本稿では,画像超解像技術とマルチスケール観測を組み合わせた深層学習赤外線小目標検出手法を提案する。
この手法の2つの公開データセットであるSIRSTとIRISでのmAP@0.5検出率は、それぞれ96.4%と99.5%に達した。
論文 参考訳(メタデータ) (2024-12-27T18:43:56Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [83.35198885088093]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、タスクやシーン間でHSI解釈を統合するビジョントランスフォーマーベースの基礎モデルである。
さらに,約450Kのハイパースペクトル画像を含む,事前学習のための大規模ハイパースペクトルデータセットHyperGlobal-450Kを構築した。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。