論文の概要: Sample and Computation Redistribution for Efficient Face Detection
- arxiv url: http://arxiv.org/abs/2105.04714v1
- Date: Mon, 10 May 2021 23:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 04:25:19.106257
- Title: Sample and Computation Redistribution for Efficient Face Detection
- Title(参考訳): 効率的な顔検出のためのサンプルと計算再分配
- Authors: Jia Guo and Jiankang Deng and Alexandros Lattas and Stefanos Zafeiriou
- Abstract要約: トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
- 参考スコア(独自算出の注目度): 137.19388513633484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although tremendous strides have been made in uncontrolled face detection,
efficient face detection with a low computation cost as well as high precision
remains an open challenge. In this paper, we point out that training data
sampling and computation distribution strategies are the keys to efficient and
accurate face detection. Motivated by these observations, we introduce two
simple but effective methods (1) Sample Redistribution (SR), which augments
training samples for the most needed stages, based on the statistics of
benchmark datasets; and (2) Computation Redistribution (CR), which reallocates
the computation between the backbone, neck and head of the model, based on a
meticulously defined search methodology. Extensive experiments conducted on
WIDER FACE demonstrate the state-of-the-art efficiency-accuracy trade-off for
the proposed \scrfd family across a wide range of compute regimes. In
particular, \scrfdf{34} outperforms the best competitor, TinaFace, by $3.86\%$
(AP at hard set) while being more than \emph{3$\times$ faster} on GPUs with
VGA-resolution images. We also release our code to facilitate future research.
- Abstract(参考訳): 制御不能な顔検出では大きな進歩があったが、計算コストの低い効率的な顔検出と高精度な顔検出は依然として未解決の課題である。
本稿では,トレーニングデータサンプリングと計算分散戦略が,効率的かつ正確な顔検出の鍵であることを示す。
これらの知見に動機づけられて,(1)ベンチマークデータセットの統計に基づいて,最も必要な段階のトレーニングサンプルを増強するサンプル再分配 (sr) と,(2)精細に定義された探索手法に基づいてモデルのバックボーン,ネック,ヘッド間の計算を再配置する計算再分配 (cr) という2つの簡易かつ効果的な手法を導入した。
WIDER FACEで実施された大規模な実験は、幅広い計算系で提案された \scrfd ファミリーの最先端の効率-精度トレードオフを実証している。
特に、 \scrfdf{34} は、VGA解像度のイメージを持つGPU上での \emph{3$\times$ faster} よりも高いが、最大の競合である TinaFace を$3.86\%$ (AP at hard set) で上回っている。
また、将来の研究を促進するためにコードをリリースします。
関連論文リスト
- Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。
NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文 参考訳(メタデータ) (2024-08-06T13:49:01Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Learning Robust Feature Representations for Scene Text Detection [0.0]
本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-26T01:06:47Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。