論文の概要: RemDet: Rethinking Efficient Model Design for UAV Object Detection
- arxiv url: http://arxiv.org/abs/2412.10040v1
- Date: Fri, 13 Dec 2024 11:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:43.338803
- Title: RemDet: Rethinking Efficient Model Design for UAV Object Detection
- Title(参考訳): RemDet:UAVオブジェクト検出のための効率的なモデル設計を再考する
- Authors: Chen Li, Rui Zhao, Zeyu Wang, Huiying Xu, Xinzhong Zhu,
- Abstract要約: 無人航空機(UAV)画像における物体検出は研究の焦点領域として現れている。
現在のリアルタイム物体検出器は、UAV画像に最適化されていない。
これらの課題に対処するために,新しい検出器RemDetを提案する。
- 参考スコア(独自算出の注目度): 12.652666443395528
- License:
- Abstract: Object detection in Unmanned Aerial Vehicle (UAV) images has emerged as a focal area of research, which presents two significant challenges: i) objects are typically small and dense within vast images; ii) computational resource constraints render most models unsuitable for real-time deployment. Current real-time object detectors are not optimized for UAV images, and complex methods designed for small object detection often lack real-time capabilities. To address these challenges, we propose a novel detector, RemDet (Reparameter efficient multiplication Detector). Our contributions are as follows: 1) Rethinking the challenges of existing detectors for small and dense UAV images, and proposing information loss as a design guideline for efficient models. 2) We introduce the ChannelC2f module to enhance small object detection performance, demonstrating that high-dimensional representations can effectively mitigate information loss. 3) We design the GatedFFN module to provide not only strong performance but also low latency, effectively addressing the challenges of real-time detection. Our research reveals that GatedFFN, through the use of multiplication, is more cost-effective than feed-forward networks for high-dimensional representation. 4) We propose the CED module, which combines the advantages of ViT and CNN downsampling to effectively reduce information loss. It specifically enhances context information for small and dense objects. Extensive experiments on large UAV datasets, Visdrone and UAVDT, validate the real-time efficiency and superior performance of our methods. On the challenging UAV dataset VisDrone, our methods not only provided state-of-the-art results, improving detection by more than 3.4%, but also achieve 110 FPS on a single 4090.Codes are available at (this URL)(https://github.com/HZAI-ZJNU/RemDet).
- Abstract(参考訳): 無人航空機(UAV)画像における物体検出は研究の焦点領域として現れており、2つの重要な課題が提示されている。
一 被写体は、通常、広大な画像の中で小さくて密度が高いもの
二 計算資源の制約により、ほとんどのモデルはリアルタイムの配備に適さない。
現在のリアルタイム物体検出器はUAV画像に最適化されておらず、小さな物体検出のために設計された複雑な手法はリアルタイムの能力に欠けることが多い。
これらの課題に対処するため、新しい検出器RemDet(Reparameter efficient multiplication Detector)を提案する。
私たちの貢献は以下の通りです。
1)小型で高密度なUAV画像のための既存の検出器の課題を再考し,効率的なモデルの設計ガイドラインとして情報損失を提案する。
2)ChannelC2fモジュールを導入し,小型物体検出性能を向上し,高次元表現が情報損失を効果的に軽減できることを実証した。
3) GatedFFNモジュールを設計し, 高い性能だけでなく低レイテンシを実現し, リアルタイム検出の課題に効果的に対処する。
本研究により,GatedFFNは高次元表現のためのフィードフォワードネットワークよりも費用対効果が高いことが明らかとなった。
4) 情報損失を効果的に低減するために, ViT と CNN のダウンサンプリングの利点を組み合わせた CED モジュールを提案する。
それは特に、小さくて密度の高いオブジェクトのコンテキスト情報を強化する。
大規模なUAVデータセットであるVisdroneとUAVDTの大規模な実験により、我々の手法のリアルタイム効率と優れた性能が検証された。
挑戦的なUAVデータセットであるVisDroneでは、私たちのメソッドが最先端の結果を提供し、検出を3.4%以上改善するだけでなく、1つの4090.Codesで110 FPSを達成した(このURL)(https://github.com/HZAI-ZJNU/RemDet)。
関連論文リスト
- Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。
交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。
低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文 参考訳(メタデータ) (2024-10-26T05:09:20Z) - ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。
画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。
本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文 参考訳(メタデータ) (2024-07-23T12:21:23Z) - Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - Visible and Clear: Finding Tiny Objects in Difference Map [50.54061010335082]
本稿では,検出モデルに自己再構成機構を導入し,それと微小物体との強い相関関係を明らかにする。
具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。
さらに、小さな特徴表現をより明確にするために、差分マップガイド機能拡張(DGFE)モジュールを開発する。
論文 参考訳(メタデータ) (2024-05-18T12:22:26Z) - YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images [33.80392696735718]
YOLC(You Only Look Clusters)は、アンカーフリーなオブジェクト検出器であるCenterNet上に構築された、効率的で効果的なフレームワークである。
大規模画像や非一様オブジェクトの分布がもたらす課題を克服するため,正確な検出のためにクラスタ領域のズームインを適応的に検索するローカルスケールモジュール(LSM)を導入する。
Visdrone 2019 と UAVDT を含む2つの航空画像データセットに対する広範な実験を行い、提案手法の有効性と優位性を実証した。
論文 参考訳(メタデータ) (2024-04-09T10:03:44Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Fewer is More: Efficient Object Detection in Large Aerial Images [59.683235514193505]
本稿では,検出者がより少ないパッチに注目するのに対して,より効率的な推論とより正確な結果を得るのに役立つObjectness Activation Network(OAN)を提案する。
OANを用いて、5つの検出器は3つの大規模な空中画像データセットで30.0%以上のスピードアップを取得する。
我々はOANをドライブシーン物体検出と4Kビデオ物体検出に拡張し,検出速度をそれぞれ112.1%,75.0%向上させた。
論文 参考訳(メタデータ) (2022-12-26T12:49:47Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。