論文の概要: Rediscovery of the Effectiveness of Standard Convolution for Lightweight
Face Detection
- arxiv url: http://arxiv.org/abs/2204.01209v1
- Date: Mon, 4 Apr 2022 02:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:26:23.231275
- Title: Rediscovery of the Effectiveness of Standard Convolution for Lightweight
Face Detection
- Title(参考訳): 軽量顔検出における標準畳み込みの有効性の再検討
- Authors: Joonhyun Jeong, Beomyoung Kim, Joonsang Yu, Youngjoon Yoo
- Abstract要約: 顔検出における軽量バックボーンアーキテクチャとしての標準畳み込みブロックの有効性を再検討する。
チャネルを切断した標準畳み込み層は、同様のパラメータサイズを使用する場合、精度と推論速度が良くなることを示す。
- 参考スコア(独自算出の注目度): 8.241245961470554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyses the design choices of face detection architecture that
improve efficiency between computation cost and accuracy. Specifically, we
re-examine the effectiveness of the standard convolutional block as a
lightweight backbone architecture on face detection. Unlike the current
tendency of lightweight architecture design, which heavily utilizes depthwise
separable convolution layers, we show that heavily channel-pruned standard
convolution layer can achieve better accuracy and inference speed when using a
similar parameter size. This observation is supported by the analyses
concerning the characteristics of the target data domain, face. Based on our
observation, we propose to employ ResNet with a highly reduced channel, which
surprisingly allows high efficiency compared to other mobile-friendly networks
(e.g., MobileNet-V1,-V2,-V3). From the extensive experiments, we show that the
proposed backbone can replace that of the state-of-the-art face detector with a
faster inference speed. Also, we further propose a new feature aggregation
method maximizing the detection performance. Our proposed detector EResFD
obtained 80.4% mAP on WIDER FACE Hard subset which only takes 37.7 ms for VGA
image inference in on CPU. Code will be available at
https://github.com/clovaai/EResFD.
- Abstract(参考訳): 本稿では,計算コストと精度の効率を向上する顔検出アーキテクチャの設計選択について分析する。
具体的には、顔検出における軽量なバックボーンアーキテクチャとしての標準畳み込みブロックの有効性を再検討する。
奥行き分離可能な畳み込み層を多用する軽量アーキテクチャ設計の現在の傾向と異なり,類似のパラメータサイズを使用する場合,重層構造を持つ標準畳み込み層により精度と推論速度が向上することを示す。
この観察は、対象データ領域,顔の特性に関する分析によって支持される。
本研究では,モバイルフレンドリーなネットワーク (mobilenet-v1,-v2,-v3) と比較し,resnet を非常に少ないチャネルで採用することを提案する。
広範な実験から,提案するバックボーンが最先端の顔検出器をより高速な推定速度で置き換えることができることを示す。
また,検出性能を最大化する特徴集約手法を提案する。
提案する検出器EResFDは,CPU上でのVGA画像推測に37.7msしか要しないWIDER FACE Hardサブセット上で80.4%のmAPを得た。
コードはhttps://github.com/clovaai/eresfdで入手できる。
関連論文リスト
- Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - EfficientFace: An Efficient Deep Network with Feature Enhancement for
Accurate Face Detection [20.779512288834315]
現在の軽量なCNNベースの顔検出器は、効率の取引精度が不十分で、特徴表現が不十分である。
本研究では,機能強化のための3つのモジュールを含むEfficientFaceと呼ばれる効率的なディープフェイス検出器を設計する。
4つの公開ベンチマークでEfficientFaceを評価し,その有効性を実証した。
論文 参考訳(メタデータ) (2023-02-23T06:59:45Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Simple Training Strategies and Model Scaling for Object Detection [38.27709720726833]
RetinaNetおよびRCNN検出器を用いたバニラResNet-FPNバックボーンのベンチマークを行った。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
論文 参考訳(メタデータ) (2021-06-30T18:41:47Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - An Efficient Multitask Neural Network for Face Alignment, Head Pose
Estimation and Face Tracking [9.39854778804018]
効率的なマルチタスク顔アライメント、顔追跡、頭部ポーズ推定ネットワーク(ATPN)を提案します。
ATPNは従来の最先端手法に比べて性能が向上し、パラメータやFLOPSは少ない。
論文 参考訳(メタデータ) (2021-03-13T04:41:15Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Learning Robust Feature Representations for Scene Text Detection [0.0]
本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-26T01:06:47Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。