論文の概要: Scale-Equalizing Pyramid Convolution for Object Detection
- arxiv url: http://arxiv.org/abs/2005.03101v1
- Date: Wed, 6 May 2020 19:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:50:36.635092
- Title: Scale-Equalizing Pyramid Convolution for Object Detection
- Title(参考訳): 物体検出のためのスケール等化ピラミッド畳み込み
- Authors: Xinjiang Wang, Shilong Zhang, Zhuoran Yu, Litong Feng, Wayne Zhang
- Abstract要約: 特徴ピラミッドは、異なるスケールで特徴を抽出する効率的な方法である。
このことに触発されて、ピラミッドレベルの畳み込みが提案され、これはピラミッド畳み込みと呼ばれ、修正された3次元畳み込みである。
積み重ねられたピラミッド畳み込みは直接3次元(スケールと空間)の特徴を抽出し、細心の注意を払って設計された他の特徴融合モジュールより優れている。
- 参考スコア(独自算出の注目度): 22.516829622445062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature pyramid has been an efficient method to extract features at different
scales. Development over this method mainly focuses on aggregating contextual
information at different levels while seldom touching the inter-level
correlation in the feature pyramid. Early computer vision methods extracted
scale-invariant features by locating the feature extrema in both spatial and
scale dimension. Inspired by this, a convolution across the pyramid level is
proposed in this study, which is termed pyramid convolution and is a modified
3-D convolution. Stacked pyramid convolutions directly extract 3-D (scale and
spatial) features and outperforms other meticulously designed feature fusion
modules. Based on the viewpoint of 3-D convolution, an integrated batch
normalization that collects statistics from the whole feature pyramid is
naturally inserted after the pyramid convolution. Furthermore, we also show
that the naive pyramid convolution, together with the design of RetinaNet head,
actually best applies for extracting features from a Gaussian pyramid, whose
properties can hardly be satisfied by a feature pyramid. In order to alleviate
this discrepancy, we build a scale-equalizing pyramid convolution (SEPC) that
aligns the shared pyramid convolution kernel only at high-level feature maps.
Being computationally efficient and compatible with the head design of most
single-stage object detectors, the SEPC module brings significant performance
improvement ($>4$AP increase on MS-COCO2017 dataset) in state-of-the-art
one-stage object detectors, and a light version of SEPC also has $\sim3.5$AP
gain with only around 7% inference time increase. The pyramid convolution also
functions well as a stand-alone module in two-stage object detectors and is
able to improve the performance by $\sim2$AP. The source code can be found at
https://github.com/jshilong/SEPC.
- Abstract(参考訳): 特徴ピラミッドは、異なるスケールで特徴を抽出する効率的な方法である。
本手法の開発は, 特徴ピラミッドの階層間相関にほとんど触れず, 文脈情報を異なるレベルで集約することに焦点を当てている。
初期のコンピュータビジョン手法では,空間次元とスケール次元の両方で特徴極端を同定することで,スケール不変な特徴を抽出した。
このことに触発されて、ピラミッドレベルの畳み込みが提案され、これはピラミッド畳み込みと呼ばれ、修正された3次元畳み込みである。
積み重ねられたピラミッド畳み込みは、3次元(スケールと空間)の特徴を直接抽出し、他の細心の注意深い機能融合モジュールよりも優れている。
3次元畳み込みの観点に基づいて、特徴ピラミッド全体から統計を収集する統合バッチ正規化をピラミッド畳み込みの後に自然に挿入する。
さらに,本論文では,レティナネットヘッドの設計とともに,ガウスピラミッドから特徴を抽出するのに最も適しており,その特性を特徴ピラミッドで満たすことが困難であることを示す。
この不一致を軽減するため、我々は、共有ピラミッド畳み込みカーネルを高レベル特徴マップのみで整列するスケール等化ピラミッド畳み込み(sepc)を構築する。
計算効率が良く、ほとんどの単一ステージオブジェクト検出器のヘッド設計と互換性があるため、SEPCモジュールは最先端の1ステージオブジェクト検出器において大幅なパフォーマンス向上(MS-COCO2017データセットでは4$AP増加)をもたらす。
ピラミッド畳み込みは、2段階の物体検出器でスタンドアロンモジュールとして機能し、$\sim2$apの性能を向上させることができる。
ソースコードはhttps://github.com/jshilong/SEPCで確認できる。
関連論文リスト
- MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D
Sparse Convolutions [1.124958340749622]
MinkUNeXtは、新しい3D MinkNeXt Blockをベースとした、ポイントクラウドからの位置認識のための効率的かつ効率的なアーキテクチャである。
提案の徹底的な評価は、Oxford RobotCarとIn-houseデータセットを用いて行われている。
論文 参考訳(メタデータ) (2024-03-12T12:25:54Z) - G3Reg: Pyramid Graph-based Global Registration using Gaussian Ellipsoid Model [21.189016878269104]
本研究では,LiDAR点雲の高速かつ堅牢なグローバル登録のための新しいフレームワークであるG3Regを紹介する。
従来の複雑なキーポイントや記述子とは対照的に、基本的な幾何学的プリミティブを抽出する。
本稿では,グローバル登録のためのピラミッドグラフに基づく不信検証方式を提案する。
論文 参考訳(メタデータ) (2023-08-22T17:23:00Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - PNEN: Pyramid Non-Local Enhanced Networks [23.17149002568982]
我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。
提案したモジュールに基づいて,エッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案する。
超解像法と超解像法という2つの既存手法に統合し,一貫した性能向上を実現した。
論文 参考訳(メタデータ) (2020-08-22T03:10:48Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z) - Feature Pyramid Grids [140.11116687047058]
本稿では,深い多経路特徴ピラミッドであるFeature Pyramid Grids (FPG)を提案する。
FPGは、同様の計算コストで性能を大幅に向上させることで、シングルパスの特徴ピラミッドネットワークを改善することができる。
論文 参考訳(メタデータ) (2020-04-07T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。