論文の概要: Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images
- arxiv url: http://arxiv.org/abs/2602.23031v1
- Date: Thu, 26 Feb 2026 14:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.716334
- Title: Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images
- Title(参考訳): 空間ラプラシアンピラミッド注意による小型物体検出モデルと空中画像のマルチスケール特徴強調
- Authors: Zhangjian Ji, Huijia Yan, Shaotong Qiao, Kai Feng, Wei Wei,
- Abstract要約: 本研究では,空間ラプラシアンピラミッド注意とマルチスケール特徴強調に基づく小型物体検出アルゴリズムを提案する。
改良されたモデルでは, 従来のアルゴリズムと比較して, 小型物体検出の精度が向上した。
- 参考スコア(独自算出の注目度): 8.532166936880822
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Detecting objects in aerial images confronts some significant challenges, including small size, dense and non-uniform distribution of objects over high-resolution images, which makes detection inefficient. Thus, in this paper, we proposed a small object detection algorithm based on a Spatial Laplacian Pyramid Attention and Multi-Scale Feature Enhancement in aerial images. Firstly, in order to improve the feature representation of ResNet-50 on small objects, we presented a novel Spatial Laplacian Pyramid Attention (SLPA) module, which is integrated after each stage of ResNet-50 to identify and emphasize important local regions. Secondly, to enhance the model's semantic understanding and features representation, we designed a Multi-Scale Feature Enhancement Module (MSFEM), which is incorporated into the lateral connections of C5 layer for building Feature Pyramid Network (FPN). Finally, the features representation quality of traditional feature pyramid network will be affected because the features are not aligned when the upper and lower layers are fused. In order to handle it, we utilized deformable convolutions to align the features in the fusion processing of the upper and lower levels of the Feature Pyramid Network, which can help enhance the model's ability to detect and recognize small objects. The extensive experimental results on two benchmark datasets: VisDrone and DOTA demonstrate that our improved model performs better for small object detection in aerial images compared to the original algorithm.
- Abstract(参考訳): 空中画像における物体の検出は、小型化、高解像度画像上の物体の密度分布、一様分布など、いくつかの重大な課題に直面している。
そこで本稿では,空間ラプラシアンピラミッド注意と空中画像のマルチスケール特徴強調に基づく小型物体検出アルゴリズムを提案する。
まず,ResNet-50の小型物体における特徴表現を改善するために,ResNet-50の各段階の後に統合され,重要な局所領域を識別・強調する空間ラプラシアンピラミッドアテンション(SLPA)モジュールを提案する。
第2に、モデルのセマンティック理解と特徴表現を強化するために、特徴ピラミッドネットワーク(FPN)を構築するためにC5層の側面接続に組み込まれたマルチスケール特徴拡張モジュール(MSFEM)を設計した。
最後に、上層と下層が融合した時に特徴が整列しないため、従来の特徴ピラミッドネットワークの特徴表現品質が影響を受ける。
そこで我々は、変形可能な畳み込みを利用して、特徴ピラミッドネットワークの上層と下層の融合処理における特徴を整列させ、モデルが小さなオブジェクトを検出して認識する能力を高めるのに役立つようにした。
VisDrone と DOTA の2つのベンチマークデータセットに対する大規模な実験結果から,改良されたモデルが,元のアルゴリズムと比較して空中画像の小さな物体検出に有効であることが示された。
関連論文リスト
- FGAA-FPN: Foreground-Guided Angle-Aware Feature Pyramid Network for Oriented Object Detection [1.0152838128195467]
オブジェクト指向物体検出のためのフォアグラウンドガイドアングル対応特徴ピラミッドネットワークを提案する。
FGAA-FPNは階層的な関数分解に基づいて構築されており、ピラミッドのレベルで異なる空間分解と意味的抽象化を考慮に入れている。
DOTA v1.0とDOTA v1.5の実験では、FGAA-FPNは、それぞれ75.5%と68.3%のmAPに達した。
論文 参考訳(メタデータ) (2026-02-11T10:15:06Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Enhanced Single-shot Detector for Small Object Detection in Remote
Sensing Images [33.84369068593722]
小型物体検出のための画像ピラミッド単発検出器(IPSSD)を提案する。
IPSSDでは、単一ショット検出器と画像ピラミッドネットワークを組み合わせて、候補領域を生成するための意味的に強い特徴を抽出する。
提案するネットワークは,特徴ピラミッドネットワークから小規模な特徴を拡張できる。
論文 参考訳(メタデータ) (2022-05-12T07:35:07Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z) - Dense Multiscale Feature Fusion Pyramid Networks for Object Detection in
UAV-Captured Images [0.09065034043031667]
本研究では,よりリッチな特徴を可能な限り得ることを目的とした,高密度多スケール特徴融合ピラミッドネットワーク(dmffpn)と呼ばれる新しい手法を提案する。
具体的には、密度の高い接続は、異なる畳み込み層からの表現を完全に活用するように設計されている。
VisDrone-DETと呼ばれるドローンベースのデータセットの実験は、我々の方法の競争力を示唆している。
論文 参考訳(メタデータ) (2020-12-19T10:05:31Z) - Extended Feature Pyramid Network for Small Object Detection [20.029591259254847]
小型物体検出に特化した高分解能ピラミッドレベルの拡張特徴ピラミッドネットワーク(EFPN)を提案する。
具体的には,特徴の超解法と信頼性のある地域情報を同時に抽出するために,特徴テクスチャ転送(FTT)と呼ばれる新しいモジュールを設計する。
実験では,提案したEFPNは計算とメモリの両方で効率的であり,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-03-16T04:27:54Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - NETNet: Neighbor Erasing and Transferring Network for Better Single Shot
Object Detection [170.30694322460045]
我々は、ピラミッドの特徴を再設定し、スケールアウェアな特徴を探索する新しいNeighbor Erasing and Transferring(NET)メカニズムを提案する。
NETNetと呼ばれるシングルショットネットワークは、スケールアウェアなオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2020-01-18T15:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。