論文の概要: Adaptive Image Zoom-in with Bounding Box Transformation for UAV Object Detection
- arxiv url: http://arxiv.org/abs/2602.07512v1
- Date: Sat, 07 Feb 2026 12:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.658947
- Title: Adaptive Image Zoom-in with Bounding Box Transformation for UAV Object Detection
- Title(参考訳): UAV物体検出のためのバウンディングボックス変換を用いた適応画像ズームイン
- Authors: Tao Wang, Chenyu Lin, Chenwei Tang, Jizhe Zhou, Deng Xiong, Jianan Li, Jian Zhao, Jiancheng Lv,
- Abstract要約: 本研究では,UAV画像上の物体検出のための簡易かつ効率的な適応型ズームインフレームワークについて検討する。
主な動機は、前景の物体が一般的な風景画像よりも小さく、スペーサーであることである。
提案したZoomDetはアーキテクチャに依存しておらず、任意のオブジェクト検出アーキテクチャに適用できる。
- 参考スコア(独自算出の注目度): 36.46244505181511
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detecting objects from UAV-captured images is challenging due to the small object size. In this work, a simple and efficient adaptive zoom-in framework is explored for object detection on UAV images. The main motivation is that the foreground objects are generally smaller and sparser than those in common scene images, which hinders the optimization of effective object detectors. We thus aim to zoom in adaptively on the objects to better capture object features for the detection task. To achieve the goal, two core designs are required: \textcolor{black}{i) How to conduct non-uniform zooming on each image efficiently? ii) How to enable object detection training and inference with the zoomed image space?} Correspondingly, a lightweight offset prediction scheme coupled with a novel box-based zooming objective is introduced to learn non-uniform zooming on the input image. Based on the learned zooming transformation, a corner-aligned bounding box transformation method is proposed. The method warps the ground-truth bounding boxes to the zoomed space to learn object detection, and warps the predicted bounding boxes back to the original space during inference. We conduct extensive experiments on three representative UAV object detection datasets, including VisDrone, UAVDT, and SeaDronesSee. The proposed ZoomDet is architecture-independent and can be applied to an arbitrary object detection architecture. Remarkably, on the SeaDronesSee dataset, ZoomDet offers more than 8.4 absolute gain of mAP with a Faster R-CNN model, with only about 3 ms additional latency. The code is available at https://github.com/twangnh/zoomdet_code.
- Abstract(参考訳): UAV撮像画像から物体を検出することは、小さな物体の大きさのため困難である。
本研究では,UAV画像の物体検出のための簡易かつ効率的な適応型ズームインフレームワークを提案する。
主な動機は、フォアグラウンドの物体は一般的なシーン画像よりも小さく、スペーサーであり、効果的な物体検出器の最適化を妨げることである。
そこで我々は,対象物に適応的にズームインして,検出タスクのオブジェクト特徴をよりよく捉えることを目的としている。
目標を達成するには、2つのコア設計が必要である。 \textcolor{black}{i) 各画像の非一様ズームを効率的に行うには?
二 ズーム画像空間による物体検出訓練及び推論の実施方法
これに対応して、新しいボックスベースのズーム目標と組み合わせた軽量オフセット予測スキームを導入し、入力画像上で一様ではないズームを学習する。
学習したズーム変換に基づいて,コーナーアラインなバウンディングボックス変換法を提案する。
この方法は、オブジェクト検出を学習するために、接地した境界ボックスをズームされた空間にワープし、予測された境界ボックスを推論中に元の空間にワープする。
我々は、VisDrone、UAVDT、SeaDronesSeeを含む3つの代表的なUAVオブジェクト検出データセットについて広範な実験を行った。
提案したZoomDetはアーキテクチャに依存しておらず、任意のオブジェクト検出アーキテクチャに適用できる。
注目すべきは、SeaDronesSeeデータセットにおいて、ZoomDetは、より高速なR-CNNモデルでmAPの8.4以上の絶対的なゲインを提供する。
コードはhttps://github.com/twangnh/zoomdet_codeで公開されている。
関連論文リスト
- YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images [33.80392696735718]
YOLC(You Only Look Clusters)は、アンカーフリーなオブジェクト検出器であるCenterNet上に構築された、効率的で効果的なフレームワークである。
大規模画像や非一様オブジェクトの分布がもたらす課題を克服するため,正確な検出のためにクラスタ領域のズームインを適応的に検索するローカルスケールモジュール(LSM)を導入する。
Visdrone 2019 と UAVDT を含む2つの航空画像データセットに対する広範な実験を行い、提案手法の有効性と優位性を実証した。
論文 参考訳(メタデータ) (2024-04-09T10:03:44Z) - FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on
Optical Flow [27.621524657473945]
複数物体追跡(MOT)はコンピュータビジョンにおいてよく研究されている。
しかし、無人航空機(UAV)が撮影したビデオのMOTは、小さな物体の大きさ、ぼやけた物体の外観、そして非常に大きくて不規則な動きのために依然として困難である。
我々はこれらの問題を緩和し、UAVビューで高速かつ正確なMOTに到達するためにFOLTを提案する。
論文 参考訳(メタデータ) (2023-08-14T15:24:44Z) - Learning to Zoom and Unzoom [49.587516562644836]
入力画像にズームインし、空間的特徴を計算し、次に「アンゾム」して任意の変形を反転させる。
さまざまなタスクやデータセットを評価することで、この汎用性を実証する。
論文 参考訳(メタデータ) (2023-03-27T17:03:30Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。