論文の概要: Delving into the Scale Variance Problem in Object Detection
- arxiv url: http://arxiv.org/abs/2206.08227v1
- Date: Thu, 16 Jun 2022 14:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 21:37:54.550486
- Title: Delving into the Scale Variance Problem in Object Detection
- Title(参考訳): 物体検出におけるスケール変数問題への埋め込み
- Authors: Junliang Chen, Xiaodong Zhao, Linlin Shen
- Abstract要約: 本稿では,スケール分散問題に対処するマルチスケール畳み込み(MSConv)を提案する。
MSConvは効率的で計算効率が良いが、計算コストは少ない。
単スケールテストでは48.9%のAPが達成し、最先端の手法を超越しています。
- 参考スコア(独自算出の注目度): 38.81729426906514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection has made substantial progress in the last decade, due to the
capability of convolution in extracting local context of objects. However, the
scales of objects are diverse and current convolution can only process
single-scale input. The capability of traditional convolution with a fixed
receptive field in dealing with such a scale variance problem, is thus limited.
Multi-scale feature representation has been proven to be an effective way to
mitigate the scale variance problem. Recent researches mainly adopt partial
connection with certain scales, or aggregate features from all scales and focus
on the global information across the scales. However, the information across
spatial and depth dimensions is ignored. Inspired by this, we propose the
multi-scale convolution (MSConv) to handle this problem. Taking into
consideration scale, spatial and depth information at the same time, MSConv is
able to process multi-scale input more comprehensively. MSConv is effective and
computationally efficient, with only a small increase of computational cost.
For most of the single-stage object detectors, replacing the traditional
convolutions with MSConvs in the detection head can bring more than 2.5\%
improvement in AP (on COCO 2017 dataset), with only 3\% increase of FLOPs.
MSConv is also flexible and effective for two-stage object detectors. When
extended to the mainstream two-stage object detectors, MSConv can bring up to
3.0\% improvement in AP. Our best model under single-scale testing achieves
48.9\% AP on COCO 2017 \textit{test-dev} split, which surpasses many
state-of-the-art methods.
- Abstract(参考訳): オブジェクト検出は、オブジェクトの局所的なコンテキストを抽出する畳み込みの能力のため、この10年で大幅に進歩した。
しかし、オブジェクトのスケールは多様であり、現在の畳み込みは単一スケールの入力しか処理できない。
したがって、そのようなスケール分散問題に対処する際の固定受容場との伝統的な畳み込みの能力は制限される。
マルチスケール特徴表現は、スケール分散問題を解決する効果的な方法であることが証明されている。
最近の研究は、主に特定のスケールへの部分的接続、またはあらゆるスケールからの集合的特徴を採用し、スケール全体にわたるグローバル情報に焦点を当てている。
しかし、空間的次元と深さ的次元の情報を無視する。
そこで本研究では,この問題に対処するためのマルチスケール畳み込み(MSConv)を提案する。
スケール、空間、深さの情報を同時に考慮し、MSConvはより包括的なマルチスケール入力を処理することができる。
MSConvは効率的で計算効率が良いが、計算コストは少ない。
単一ステージのオブジェクト検出器のほとんどでは、従来の畳み込みを検出ヘッドのmsconvに置き換えることで、ap(coco 2017データセット上で)が2.5\%以上改善され、フラップは3\%しか増加しない。
MSConvは柔軟で、2段階の物体検出器にも有効である。
メインストリームの2段階の物体検出器に拡張すると、MSConvはAPの3.0\%の改善をもたらす。
単スケールテストにおける最良のモデルは、COCO 2017 \textit{test-dev} スプリットで48.9%のAPを達成する。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images [33.80392696735718]
YOLC(You Only Look Clusters)は、アンカーフリーなオブジェクト検出器であるCenterNet上に構築された、効率的で効果的なフレームワークである。
大規模画像や非一様オブジェクトの分布がもたらす課題を克服するため,正確な検出のためにクラスタ領域のズームインを適応的に検索するローカルスケールモジュール(LSM)を導入する。
Visdrone 2019 と UAVDT を含む2つの航空画像データセットに対する広範な実験を行い、提案手法の有効性と優位性を実証した。
論文 参考訳(メタデータ) (2024-04-09T10:03:44Z) - MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-22T06:42:23Z) - Multi-scale Feature Aggregation for Crowd Counting [84.45773306711747]
マルチスケール特徴集約ネットワーク(MSFANet)を提案する。
MSFANetは、ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールで構成されている。
論文 参考訳(メタデータ) (2022-08-10T10:23:12Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。