論文の概要: UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery
- arxiv url: http://arxiv.org/abs/2501.01855v1
- Date: Fri, 03 Jan 2025 15:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:28.939935
- Title: UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery
- Title(参考訳): UAV-DETR:無人航空機画像の効率的な終端物検出
- Authors: Huaxiang Zhang, Kai Liu, Zhongxue Gan, Guo-Niu Zhu,
- Abstract要約: 無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。
既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。
本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.599037804047724
- License:
- Abstract: Unmanned aerial vehicle object detection (UAV-OD) has been widely used in various scenarios. However, most existing UAV-OD algorithms rely on manually designed components, which require extensive tuning. End-to-end models that do not depend on such manually designed components are mainly designed for natural images, which are less effective for UAV imagery. To address such challenges, this paper proposes an efficient detection transformer (DETR) framework tailored for UAV imagery, i.e., UAV-DETR. The framework includes a multi-scale feature fusion with frequency enhancement module, which captures both spatial and frequency information at different scales. In addition, a frequency-focused down-sampling module is presented to retain critical spatial details during down-sampling. A semantic alignment and calibration module is developed to align and fuse features from different fusion paths. Experimental results demonstrate the effectiveness and generalization of our approach across various UAV imagery datasets. On the VisDrone dataset, our method improves AP by 3.1\% and $\text{AP}_{50}$ by 4.2\% over the baseline. Similar enhancements are observed on the UAVVaste dataset. The project page: https://github.com/ValiantDiligent/UAV-DETR
- Abstract(参考訳): 無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。
しかし、既存のUAV-ODアルゴリズムのほとんどは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。
このような手動設計の部品に依存しないエンドツーエンドモデルは、UAV画像にはあまり効果がない自然画像のために主に設計されている。
このような課題に対処するために,UAV画像,すなわちUAV-DETRに適した効率的な検出変換器(DETR)フレームワークを提案する。
このフレームワークは、異なるスケールで空間情報と周波数情報をキャプチャする周波数拡張モジュールを備えたマルチスケール機能融合を含む。
さらに、ダウンサンプリング中に重要な空間的詳細を保持するために、周波数に着目したダウンサンプリングモジュールが提示される。
セマンティックアライメントとキャリブレーションモジュールは、異なる融合経路から特徴を調整および融合するために開発されている。
実験により,UAV画像データセットにまたがるアプローチの有効性と一般化が示された。
VisDroneデータセットでは、ベースライン上でAPを3.1\%、$\text{AP}_{50}$を4.2\%改善する。
同様の拡張がUAVVasteデータセットで観測されている。
プロジェクトページ:https://github.com/ValiantDiligent/UAV-DETR
関連論文リスト
- UAVDB: Trajectory-Guided Adaptable Bounding Boxes for UAV Detection [0.03464344220266879]
本稿では,Patch Intensity Convergence (PIC) を用いた高分解能UAV検出データセットであるUAVDBを紹介する。
IoU(Intersection over Union)の性能と実行時間を比較することにより,まずPIC生成バウンディングボックスの精度と効率を検証した。
次に、最先端(SOTA)YOLO系列検出器を用いてUAVDBをベンチマークし、UAVDBを長距離高分解能UAV検出のための貴重なリソースとして確立する。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Boost UAV-based Ojbect Detection via Scale-Invariant Feature Disentanglement and Adversarial Learning [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
提案手法は,モデル精度を効果的に向上し,2つのデータセット上での最先端(SoTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Rotation Invariant Transformer for Recognizing Object in UAVs [66.1564328237299]
本稿では,UAVから興味の対象を認識するための回転不変視変換器(RotTrans)を提案する。
RotTrans は最先端の mAP と Rank1 よりも5.9%、かつ 4.8% 高い最先端の 最先端の 最先端の 最先端の 技術 をはるかに上回っている。
我々のソリューションは、マルチモーダルビデオ推論・アナライジングコンペティションにおいて、UAVベースの人物認識トラックで第一位を獲得しました。
論文 参考訳(メタデータ) (2023-11-05T03:55:08Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Archangel: A Hybrid UAV-based Human Detection Benchmark with Position
and Pose Metadata [10.426019628829204]
ArchangelはUAVベースのオブジェクト検出データセットで、実際のサブセットと合成サブセットで構成されている。
一連の実験は、メタデータを活用する利点を実証するために、最先端のオブジェクト検出器で慎重に設計されている。
論文 参考訳(メタデータ) (2022-08-31T21:45:16Z) - TS4Net: Two-Stage Sample Selective Strategy for Rotating Object
Detection [6.496301096839213]
UAV-RODは1577枚の画像と30,090個の車種からなる。
UAV-RODは、回転物体検出、車両方向認識、および物体カウントタスクに使用できる。
本稿では、アンカーリファインメントモジュール(ARM)と2段階サンプル選択戦略(TS4)を含む回転物体検出器TS4Netを提案する。
論文 参考訳(メタデータ) (2021-08-06T13:38:58Z) - Leveraging domain labels for object detection from UAVs [14.853897011640022]
無人航空機(UAV)のためのドメイン対応物体検出器を提案する。
特に,実時間検出器用UAVDTの最先端性能について述べる。
高度と視角のアノテーションを特徴とする2 900 イメージに 13 713 個のオブジェクトをアノテートすることで,新しい空中画像データセットを作成する。
論文 参考訳(メタデータ) (2021-01-29T16:42:52Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。