論文の概要: DPNet: Dynamic Pooling Network for Tiny Object Detection
- arxiv url: http://arxiv.org/abs/2505.02797v1
- Date: Mon, 05 May 2025 17:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.754264
- Title: DPNet: Dynamic Pooling Network for Tiny Object Detection
- Title(参考訳): DPNet:ティニーオブジェクト検出のための動的ポーリングネットワーク
- Authors: Luqi Gong, Haotian Chen, Yikun Chen, Tianliang Yao, Chao Li, Shuai Zhao, Guangjie Han,
- Abstract要約: 画像の縮小は、特に小さなオブジェクトにおいて、検出精度を改善するための一般的な戦略である。
本稿では,これらの問題を緩和する小型物体検出のための動的プールネットワーク(DPNet)を提案する。
TinyCOCOとTinyPersonのデータセットの実験では、DPNetはそれぞれ35%と25%のGFLOPを節約できる。
- 参考スコア(独自算出の注目度): 12.331699924062196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In unmanned aerial systems, especially in complex environments, accurately detecting tiny objects is crucial. Resizing images is a common strategy to improve detection accuracy, particularly for small objects. However, simply enlarging images significantly increases computational costs and the number of negative samples, severely degrading detection performance and limiting its applicability. This paper proposes a Dynamic Pooling Network (DPNet) for tiny object detection to mitigate these issues. DPNet employs a flexible down-sampling strategy by introducing a factor (df) to relax the fixed downsampling process of the feature map to an adjustable one. Furthermore, we design a lightweight predictor to predict df for each input image, which is used to decrease the resolution of feature maps in the backbone. Thus, we achieve input-aware downsampling. We also design an Adaptive Normalization Module (ANM) to make a unified detector compatible with different dfs. A guidance loss supervises the predictor's training. DPNet dynamically allocates computing resources to trade off between detection accuracy and efficiency. Experiments on the TinyCOCO and TinyPerson datasets show that DPNet can save over 35% and 25% GFLOPs, respectively, while maintaining comparable detection performance. The code will be made publicly available.
- Abstract(参考訳): 無人の航空システム、特に複雑な環境では、小さな物体を正確に検出することが重要である。
画像の縮小は、特に小さなオブジェクトにおいて、検出精度を改善するための一般的な戦略である。
しかし、画像の増大は計算コストと負のサンプル数を大幅に増加させ、検出性能を著しく低下させ、適用性を制限する。
本稿では,これらの問題を緩和する小型物体検出のための動的プールネットワーク(DPNet)を提案する。
DPNetは、機能マップの固定されたダウンサンプリングプロセスを調整可能なものに緩和する因子(df)を導入することで、フレキシブルなダウンサンプリング戦略を採用している。
さらに,入力画像毎のdfを予測する軽量な予測器を設計し,背骨内の特徴マップの解像度を低減させる。
そこで我々は,入力認識型ダウンサンプリングを実現する。
適応正規化モジュール (ANM) も設計し、異なるdfと互換性のある統一検出器を設計する。
誘導損失は、予測者の訓練を監督する。
DPNetは、検出精度と効率のトレードオフを行うために、動的にコンピューティングリソースを割り当てる。
TinyCOCOとTinyPersonデータセットの実験では、DPNetは、それぞれ35%と25%のGFLOPを節約でき、同等な検出性能を維持している。
コードは公開されます。
関連論文リスト
- ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。
画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。
本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文 参考訳(メタデータ) (2024-07-23T12:21:23Z) - DyRA: Portable Dynamic Resolution Adjustment Network for Existing Detectors [0.669087470775851]
本稿では,既存の検出器に画像特異的なスケールファクタを提供する動的解像度調整ネットワークDyRAを紹介する。
ロス関数は、スケールのための異なるサイズのオブジェクトの異なる目的に対する精度低下を最小限に抑えるために考案された。
論文 参考訳(メタデータ) (2023-11-28T07:52:41Z) - The Importance of Anti-Aliasing in Tiny Object Detection [0.0]
本稿では,小さな物体検出に対するアンチエイリアスのための既存のWaveCNetを適用した。
We modified the original WaveCNet to apply Wavelet Pooling layer, effectively suppressing aliasing。
また,背骨の底面重みのあるバージョンを提案し,小型物体検出の性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-22T08:02:01Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Resolution Adaptive Networks for Efficient Inference [53.04907454606711]
本稿では,低分解能表現が「容易」な入力を分類するのに十分である,という直感に触発された新しいレゾリューション適応ネットワーク(RANet)を提案する。
RANetでは、入力画像はまず、低解像度表現を効率的に抽出する軽量サブネットワークにルーティングされる。
ネットワーク内の高解像度パスは、"ハード"サンプルを認識する能力を維持している。
論文 参考訳(メタデータ) (2020-03-16T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。