論文の概要: MOS: A Low Latency and Lightweight Framework for Face Detection,
Landmark Localization, and Head Pose Estimation
- arxiv url: http://arxiv.org/abs/2110.10953v2
- Date: Fri, 22 Oct 2021 02:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 11:33:21.662252
- Title: MOS: A Low Latency and Lightweight Framework for Face Detection,
Landmark Localization, and Head Pose Estimation
- Title(参考訳): mos: 顔検出、ランドマーク定位、頭部ポーズ推定のための低レイテンシで軽量なフレームワーク
- Authors: Yepeng Liu, Zaiwang Gu, Shenghua Gao, Dong Wang, Yusheng Zeng, Jun
Cheng
- Abstract要約: 顔検出,ランドマークの定位,頭部ポーズ推定を同時に行うために,低レイテンシで軽量なネットワークを提案する。
大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。
また,各タスクの重みを自動的に学習するために,不確実なマルチタスク損失を提案する。
- 参考スコア(独自算出の注目度): 37.537102697992395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of service robots and surveillance cameras, dynamic face
recognition (DFR) in wild has received much attention in recent years. Face
detection and head pose estimation are two important steps for DFR. Very often,
the pose is estimated after the face detection. However, such sequential
computations lead to higher latency. In this paper, we propose a low latency
and lightweight network for simultaneous face detection, landmark localization
and head pose estimation. Inspired by the observation that it is more
challenging to locate the facial landmarks for faces with large angles, a pose
loss is proposed to constrain the learning. Moreover, we also propose an
uncertainty multi-task loss to learn the weights of individual tasks
automatically. Another challenge is that robots often use low computational
units like ARM based computing core and we often need to use lightweight
networks instead of the heavy ones, which lead to performance drop especially
for small and hard faces. In this paper, we propose online feedback sampling to
augment the training samples across different scales, which increases the
diversity of training data automatically. Through validation in commonly used
WIDER FACE, AFLW and AFLW2000 datasets, the results show that the proposed
method achieves the state-of-the-art performance in low computational
resources.
- Abstract(参考訳): サービスロボットや監視カメラの出現により、野生の動的顔認識(dfr)は近年注目を集めている。
顔検出と頭部ポーズ推定はDFRの2つの重要なステップである。
多くの場合、顔検出後にポーズが推定される。
しかし、このような逐次計算によりレイテンシが高くなる。
本稿では,顔検出,ランドマーク位置推定,頭部ポーズ推定を同時に行う低レイテンシで軽量なネットワークを提案する。
大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。
また,各タスクの重み付けを自動的に学習するために,不確実なマルチタスク損失を提案する。
もうひとつの課題は、ロボットがARMベースのコンピューティングコアのような低計算単位を使用する場合が多く、重いものの代わりに軽量ネットワークを使用する場合が多いことです。
本稿では,学習データの多様性を自動的に向上させる学習サンプルを,さまざまなスケールで強化するオンラインフィードバックサンプリングを提案する。
WIDER FACE, AFLW, AFLW2000データセットの検証を通じて, 提案手法が低計算資源における最先端性能を実現することを示す。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - EfficientSRFace: An Efficient Network with Super-Resolution Enhancement
for Accurate Face Detection [18.977044046941813]
顔検出では、密集した顔予測タスクにおいて、人間の集団の多数の小さな顔のような低解像度の顔が一般的である。
我々は,特徴レベルの超解像再構成ネットワークを導入し,効率的なSRFaceと呼ばれる検出器を開発した。
このモジュールはトレーニングプロセスにおいて補助的な役割を担い、推論時間を増やすことなく推論中に取り除くことができる。
論文 参考訳(メタデータ) (2023-06-04T06:49:44Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Facial Masks and Soft-Biometrics: Leveraging Face Recognition CNNs for
Age and Gender Prediction on Mobile Ocular Images [53.913598771836924]
スマートフォンで撮影した自撮り眼画像を使って年齢や性別を推定します。
ImageNet Challengeの文脈で提案された2つの既存の軽量CNNを適応させる。
一部のネットワークは顔認識のためにさらにトレーニングされており、非常に大規模なトレーニングデータベースが利用可能です。
論文 参考訳(メタデータ) (2021-03-31T01:48:29Z) - An Efficient Multitask Neural Network for Face Alignment, Head Pose
Estimation and Face Tracking [9.39854778804018]
効率的なマルチタスク顔アライメント、顔追跡、頭部ポーズ推定ネットワーク(ATPN)を提案します。
ATPNは従来の最先端手法に比べて性能が向上し、パラメータやFLOPSは少ない。
論文 参考訳(メタデータ) (2021-03-13T04:41:15Z) - Deep Active Shape Model for Face Alignment and Pose Estimation [0.2148535041822524]
アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。
本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:46:54Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - An Improved Person Re-identification Method by light-weight
convolutional neural network [0.0]
人物の再識別は、低解像度、様々なポーズ、照明、背景のぼやけ、オクルージョンといった課題に直面している。
本稿では,トランスファーラーニングと検証損失関数の適用により,人物の再識別を改善することを目的とする。
実験により,提案モデルはCUHK01データセットの最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-21T12:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。