論文の概要: AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes
- arxiv url: http://arxiv.org/abs/2106.10409v1
- Date: Sat, 19 Jun 2021 03:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:35:28.221364
- Title: AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes
- Title(参考訳): adazoom:大規模シーンにおけるマルチスケール物体検出のための適応型ズームネットワーク
- Authors: Jingtao Xu and Yali Li and Shengjin Wang
- Abstract要約: 大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 57.969186815591186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection in large-scale scenes is a challenging problem due to small objects
and extreme scale variation. It is essential to focus on the image regions of
small objects. In this paper, we propose a novel Adaptive Zoom (AdaZoom)
network as a selective magnifier with flexible shape and focal length to
adaptively zoom the focus regions for object detection. Based on policy
gradient, we construct a reinforcement learning framework for focus region
generation, with the reward formulated by object distributions. The scales and
aspect ratios of the generated regions are adaptive to the scales and
distribution of objects inside. We apply variable magnification according to
the scale of the region for adaptive multi-scale detection. We further propose
collaborative training to complementarily promote the performance of AdaZoom
and the detection network. To validate the effectiveness, we conduct extensive
experiments on VisDrone2019, UAVDT, and DOTA datasets. The experiments show
AdaZoom brings a consistent and significant improvement over different
detection networks, achieving state-of-the-art performance on these datasets,
especially outperforming the existing methods by AP of 4.64% on Vis-Drone2019.
- Abstract(参考訳): 大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
小さな物体の画像領域に焦点を合わせることが不可欠である。
本稿では,物体検出のための焦点領域を適応的にズームする,フレキシブルな形状と焦点長を持つ選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
政策勾配に基づいて,オブジェクト分布による報酬を定式化した集中領域生成のための強化学習フレームワークを構築した。
生成された領域のスケールとアスペクト比は、内部のオブジェクトのスケールと分布に適応する。
適応型マルチスケール検出のための領域のスケールに応じて可変倍率を適用する。
さらに,AdaZoomと検出ネットワークの性能を相補的に促進するための協調学習を提案する。
有効性を検証するため、VisDrone2019, UAVDT, DOTAデータセットについて広範な実験を行った。
実験によると、AdaZoomはさまざまな検出ネットワークに対して一貫した大幅な改善をもたらし、これらのデータセット上で最先端のパフォーマンスを実現している。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Two-Stage Adaptive Network for Semi-Supervised Cross-Domain Crater Detection under Varying Scenario Distributions [17.28368878719324]
クロスクレーター検出のための2段階適応ネットワーク(TAN)を提案する。
我々のネットワークはYOLOv5検出器上に構築されており、そこではクロスドメインの一般化能力を高めるために一連の戦略が採用されている。
ベンチマークデータセットによる実験結果から,提案するネットワークは,様々なシナリオ分布下でのクレーター検出の領域適応性を向上できることが示された。
論文 参考訳(メタデータ) (2023-12-11T07:16:49Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-15T02:51:59Z) - Progressive Domain Adaptation with Contrastive Learning for Object
Detection in the Satellite Imagery [0.0]
最先端のオブジェクト検出手法は、小さくて密度の高いオブジェクトを特定するのにほとんど失敗している。
本稿では,特徴抽出プロセスを改善する小型物体検出パイプラインを提案する。
未確認データセットにおけるオブジェクト識別の劣化を緩和できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:16:35Z) - Bidirectional Multi-scale Attention Networks for Semantic Segmentation
of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。
当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文 参考訳(メタデータ) (2021-02-05T11:02:15Z) - Dense Multiscale Feature Fusion Pyramid Networks for Object Detection in
UAV-Captured Images [0.09065034043031667]
本研究では,よりリッチな特徴を可能な限り得ることを目的とした,高密度多スケール特徴融合ピラミッドネットワーク(dmffpn)と呼ばれる新しい手法を提案する。
具体的には、密度の高い接続は、異なる畳み込み層からの表現を完全に活用するように設計されている。
VisDrone-DETと呼ばれるドローンベースのデータセットの実験は、我々の方法の競争力を示唆している。
論文 参考訳(メタデータ) (2020-12-19T10:05:31Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Crowd Scene Analysis by Output Encoding [38.69524011345539]
信号空間の符号化における信号回帰のタスクに小さな物体の座標をキャストする圧縮出力センシング(CSOE)方式を提案する。
CSOEは、大規模な変動を伴わずに、ターゲットが非常に混雑している状況において、ローカライズパフォーマンスを向上させるのに役立つ。
また,適応受容場重み付け(ARFW)モジュールを開発し,スケール変動問題に対処する。
論文 参考訳(メタデータ) (2020-01-27T01:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。