論文の概要: ASFD: Automatic and Scalable Face Detector
- arxiv url: http://arxiv.org/abs/2003.11228v3
- Date: Tue, 31 Mar 2020 16:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:23:56.683852
- Title: ASFD: Automatic and Scalable Face Detector
- Title(参考訳): ASFD: 自動かつスケーラブルな顔検出器
- Authors: Bin Zhang, Jian Li, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li,
Feiyue Huang, Yili Xia, Wenjiang Pei, Rongrong Ji
- Abstract要約: ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
- 参考スコア(独自算出の注目度): 129.82350993748258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel Automatic and Scalable Face Detector
(ASFD), which is based on a combination of neural architecture search
techniques as well as a new loss design. First, we propose an automatic feature
enhance module named Auto-FEM by improved differential architecture search,
which allows efficient multi-scale feature fusion and context enhancement.
Second, we use Distance-based Regression and Margin-based Classification (DRMC)
multi-task loss to predict accurate bounding boxes and learn highly
discriminative deep features. Third, we adopt compound scaling methods and
uniformly scale the backbone, feature modules, and head networks to develop a
family of ASFD, which are consistently more efficient than the state-of-the-art
face detectors. Extensive experiments conducted on popular benchmarks, e.g.
WIDER FACE and FDDB, demonstrate that our ASFD-D6 outperforms the prior strong
competitors, and our lightweight ASFD-D0 runs at more than 120 FPS with
Mobilenet for VGA-resolution images.
- Abstract(参考訳): 本稿では,ニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づく,ASFD(Automatic and Scalable Face Detector)を提案する。
まず,高効率なマルチスケール機能融合とコンテキスト拡張を可能にする差分アーキテクチャ探索の改良により,Auto-FEMという自動機能拡張モジュールを提案する。
第2に、距離に基づく回帰とマージンに基づく分類(drmc)によるマルチタスクロスを用いて、正確な境界ボックスを予測し、高度に識別可能な深い特徴を学習する。
第3に、複雑なスケーリング手法を採用し、バックボーン、特徴モジュール、ヘッドネットワークを均一にスケーリングし、最先端の顔検出器よりも一貫して効率の良いASFDのファミリーを開発する。
WIDER FACEやFDDBといった一般的なベンチマークで実施された大規模な実験では、当社のASFD-D6が従来の強力なライバルより優れており、軽量のASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度のイメージを提供する。
関連論文リスト
- HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Neural Networks with A La Carte Selection of Activation Functions [0.0]
活性化関数(AF)は、ニューラルネットワークの成功(または失敗)に重要な要素である。
多数の既知のAFをアーキテクチャの成功と組み合わせて、有益な3つの方法を提案しています。
本稿では,ReLU隠れユニットとソフトマックス出力ユニットからなる標準ネットワークと比較して,25の分類問題に対して,全ての手法が有意に優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-24T09:09:39Z) - An Early Fault Detection Method of Rotating Machines Based on Multiple
Feature Fusion with Stacking Architecture [7.321910673393638]
スタックアーキテクチャを用いた多重特徴融合(M2FSA)に基づくEFD手法を提案する。
提案手法は3つの軸受データセットで検証する。
論文 参考訳(メタデータ) (2022-05-01T16:42:05Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - ASFD: Automatic and Scalable Face Detector [59.31799101216593]
本稿では,既存の全FAEモジュールをかなりの差で検出し,優れたFAEアーキテクチャであるAutoFAEを探索することを提案する。
特に、当社の強力な ASFD-D6 は WIDER Face テストで AP 96.7/96.2/92.1 よりも優れており、軽量の ASFD-D0 は約3.1 ms で 320 FPS 以上である。
論文 参考訳(メタデータ) (2022-01-26T07:11:51Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。