論文の概要: ASFD: Automatic and Scalable Face Detector
- arxiv url: http://arxiv.org/abs/2003.11228v3
- Date: Tue, 31 Mar 2020 16:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:23:56.683852
- Title: ASFD: Automatic and Scalable Face Detector
- Title(参考訳): ASFD: 自動かつスケーラブルな顔検出器
- Authors: Bin Zhang, Jian Li, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li,
Feiyue Huang, Yili Xia, Wenjiang Pei, Rongrong Ji
- Abstract要約: ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
- 参考スコア(独自算出の注目度): 129.82350993748258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel Automatic and Scalable Face Detector
(ASFD), which is based on a combination of neural architecture search
techniques as well as a new loss design. First, we propose an automatic feature
enhance module named Auto-FEM by improved differential architecture search,
which allows efficient multi-scale feature fusion and context enhancement.
Second, we use Distance-based Regression and Margin-based Classification (DRMC)
multi-task loss to predict accurate bounding boxes and learn highly
discriminative deep features. Third, we adopt compound scaling methods and
uniformly scale the backbone, feature modules, and head networks to develop a
family of ASFD, which are consistently more efficient than the state-of-the-art
face detectors. Extensive experiments conducted on popular benchmarks, e.g.
WIDER FACE and FDDB, demonstrate that our ASFD-D6 outperforms the prior strong
competitors, and our lightweight ASFD-D0 runs at more than 120 FPS with
Mobilenet for VGA-resolution images.
- Abstract(参考訳): 本稿では,ニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づく,ASFD(Automatic and Scalable Face Detector)を提案する。
まず,高効率なマルチスケール機能融合とコンテキスト拡張を可能にする差分アーキテクチャ探索の改良により,Auto-FEMという自動機能拡張モジュールを提案する。
第2に、距離に基づく回帰とマージンに基づく分類(drmc)によるマルチタスクロスを用いて、正確な境界ボックスを予測し、高度に識別可能な深い特徴を学習する。
第3に、複雑なスケーリング手法を採用し、バックボーン、特徴モジュール、ヘッドネットワークを均一にスケーリングし、最先端の顔検出器よりも一貫して効率の良いASFDのファミリーを開発する。
WIDER FACEやFDDBといった一般的なベンチマークで実施された大規模な実験では、当社のASFD-D6が従来の強力なライバルより優れており、軽量のASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度のイメージを提供する。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Neural Networks with A La Carte Selection of Activation Functions [0.0]
活性化関数(AF)は、ニューラルネットワークの成功(または失敗)に重要な要素である。
多数の既知のAFをアーキテクチャの成功と組み合わせて、有益な3つの方法を提案しています。
本稿では,ReLU隠れユニットとソフトマックス出力ユニットからなる標準ネットワークと比較して,25の分類問題に対して,全ての手法が有意に優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-24T09:09:39Z) - ASFD: Automatic and Scalable Face Detector [59.31799101216593]
本稿では,既存の全FAEモジュールをかなりの差で検出し,優れたFAEアーキテクチャであるAutoFAEを探索することを提案する。
特に、当社の強力な ASFD-D6 は WIDER Face テストで AP 96.7/96.2/92.1 よりも優れており、軽量の ASFD-D0 は約3.1 ms で 320 FPS 以上である。
論文 参考訳(メタデータ) (2022-01-26T07:11:51Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。