論文の概要: Efficient Feature Fusion for UAV Object Detection
- arxiv url: http://arxiv.org/abs/2501.17983v2
- Date: Mon, 03 Feb 2025 07:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:28.486444
- Title: Efficient Feature Fusion for UAV Object Detection
- Title(参考訳): UAV物体検出のための効率的な特徴融合
- Authors: Xudong Wang, Yaxin Peng, Chaomin Shen,
- Abstract要約: 特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.632727117779178
- License:
- Abstract: Object detection in unmanned aerial vehicle (UAV) remote sensing images poses significant challenges due to unstable image quality, small object sizes, complex backgrounds, and environmental occlusions. Small objects, in particular, occupy small portions of images, making their accurate detection highly difficult. Existing multi-scale feature fusion methods address these challenges to some extent by aggregating features across different resolutions. However, they often fail to effectively balance the classification and localization performance for small objects, primarily due to insufficient feature representation and imbalanced network information flow. In this paper, we propose a novel feature fusion framework specifically designed for UAV object detection tasks to enhance both localization accuracy and classification performance. The proposed framework integrates hybrid upsampling and downsampling modules, enabling feature maps from different network depths to be flexibly adjusted to arbitrary resolutions. This design facilitates cross-layer connections and multi-scale feature fusion, ensuring improved representation of small objects. Our approach leverages hybrid downsampling to enhance fine-grained feature representation, improving spatial localization of small targets, even under complex conditions. Simultaneously, the upsampling module aggregates global contextual information, optimizing feature consistency across scales and enhancing classification robustness in cluttered scenes. Experimental results on two public UAV datasets demonstrate the effectiveness of the proposed framework. Integrated into the YOLO-v10 model, our method achieves a 2% improvement in average precision (AP) compared to the baseline YOLO-v10 model, while maintaining the same number of parameters. These results highlight the potential of our framework for accurate and efficient UAV object detection.
- Abstract(参考訳): 無人航空機(UAV)リモートセンシング画像における物体検出は、不安定な画像品質、小さな物体のサイズ、複雑な背景、環境の排除など、重大な課題を生んでいる。
特に小さな物体は画像のごく一部を占めており、正確な検出は非常に困難である。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することで、これらの課題にある程度対処する。
しかし,主に特徴表現の不十分さと不均衡なネットワーク情報フローのため,小さなオブジェクトの分類とローカライズ性能のバランスが取れない場合が多い。
本稿では,UAVオブジェクト検出タスクに特化して設計された特徴融合フレームワークを提案する。
提案フレームワークは、ハイブリッドアップサンプリングとダウンサンプリングモジュールを統合し、異なるネットワーク深さのフィーチャーマップを任意の解像度に柔軟に調整できるようにする。
この設計は、クロス層接続とマルチスケール機能融合を容易にし、小さなオブジェクトの表現性を向上する。
提案手法は, 複雑な条件下であっても, 微細な特徴表現を向上し, 小さなターゲットの空間的局所化を改善するために, ハイブリッド・ダウンサンプリングを利用する。
同時に、アップサンプリングモジュールはグローバルなコンテキスト情報を集約し、スケールを越えた機能の一貫性を最適化し、散らかったシーンにおける分類の堅牢性を高める。
2つのパブリックUAVデータセットの実験結果から,提案手法の有効性が示された。
本手法は, YOLO-v10モデルに統合され, 基準となるYOLO-v10モデルと比較して平均精度(AP)が2%向上し, パラメータ数が同じである。
これらの結果は,UAVオブジェクト検出の正確かつ効率的なフレームワークの可能性を強調した。
関連論文リスト
- Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - SCLNet: A Scale-Robust Complementary Learning Network for Object Detection in UAV Images [0.0]
本稿では,SCLNet(Scale-robust complementary learning network)を提案する。
1つの実装は、提案したスケール補完デコーダとスケール補完損失関数に基づいている。
もう一つの実装は、提案したコントラッシブ・コントラスト・コントラスト・コントラスト・コントラスト・ネットワークとコントラスト・コントラスト・コントラスト・コントラスト・コントラスト・ロス関数に基づいている。
論文 参考訳(メタデータ) (2024-09-11T05:39:25Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - DASSF: Dynamic-Attention Scale-Sequence Fusion for Aerial Object Detection [6.635903943457569]
元のYOLOアルゴリズムは、異なるスケールのターゲットを認識する能力の弱いため、全体的な検出精度が低い。
本稿では,空中画像のターゲット検出のための動的アテンションスケール系列融合アルゴリズム(DASSF)を提案する。
DASSF法をYOLOv8nと比較すると,平均平均精度(mAP)は9.2%,2.4%増加した。
論文 参考訳(メタデータ) (2024-06-18T05:26:44Z) - Boost UAV-based Ojbect Detection via Scale-Invariant Feature Disentanglement and Adversarial Learning [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
提案手法は,モデル精度を効果的に向上し,2つのデータセット上での最先端(SoTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Underwater object detection using Invert Multi-Class Adaboost with deep
learning [37.14538666012363]
小型物体検出のための新しいニューラルネットワークアーキテクチャであるSample-WeIghted hyPEr Network(SWIPENet)を提案する。
提案するSWIPENet+IMAフレームワークは,複数の最先端オブジェクト検出手法に対して,検出精度の向上を実現する。
論文 参考訳(メタデータ) (2020-05-23T15:30:38Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。