論文の概要: Simultaneous face detection and 360 degree headpose estimation
- arxiv url: http://arxiv.org/abs/2111.11604v1
- Date: Tue, 23 Nov 2021 01:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:57:19.668350
- Title: Simultaneous face detection and 360 degree headpose estimation
- Title(参考訳): 同時顔検出と360度頭部推定
- Authors: Hoang Nguyen Viet, Linh Nguyen Viet, Tuan Nguyen Dinh, Duc Tran Minh,
Long Tran Quoc
- Abstract要約: 顔検出モデルから抽出した特徴を利用するマルチタスクネットモデルを提案する。
マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With many practical applications in human life, including manufacturing
surveillance cameras, analyzing and processing customer behavior, many
researchers are noticing face detection and head pose estimation on digital
images. A large number of proposed deep learning models have state-of-the-art
accuracy such as YOLO, SSD, MTCNN, solving the problem of face detection or
HopeNet, FSA-Net, RankPose model used for head pose estimation problem.
According to many state-of-the-art methods, the pipeline of this task consists
of two parts, from face detection to head pose estimation. These two steps are
completely independent and do not share information. This makes the model clear
in setup but does not leverage most of the featured resources extracted in each
model. In this paper, we proposed the Multitask-Net model with the motivation
to leverage the features extracted from the face detection model, sharing them
with the head pose estimation branch to improve accuracy. Also, with the
variety of data, the Euler angle domain representing the face is large, our
model can predict with results in the 360 Euler angle domain. Applying the
multitask learning method, the Multitask-Net model can simultaneously predict
the position and direction of the human head. To increase the ability to
predict the head direction of the model, we change there presentation of the
human face from the Euler angle to vectors of the Rotation matrix.
- Abstract(参考訳): 監視カメラの製造、顧客の行動の分析と処理など、人間の生活における多くの実践的な応用により、多くの研究者がデジタル画像の顔検出と頭部ポーズ推定に気づいている。
提案する深層学習モデルの多くは、顔検出やホープネット、FSA-Net、ヘッドポーズ推定に使用されるRandPoseモデルといった最先端の精度を持つ。
多くの最先端手法によれば、このタスクのパイプラインは顔検出から頭部ポーズ推定までの2つの部分で構成されている。
この2つのステップは完全に独立しており、情報を共有していない。
これにより、モデルのセットアップが明確になるが、各モデルで抽出されたリソースの大部分を活用できない。
本稿では,顔検出モデルから抽出した特徴を利用したマルチタスク・ネットモデルを提案する。
また、様々なデータにより、顔を表すオイラー角領域は大きいので、我々のモデルは360度オイラー角領域の結果を予測することができる。
マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。
モデルの頭部方向を予測する能力を高めるため,人間の顔の提示をユーラー角から回転行列のベクトルに変更する。
関連論文リスト
- HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。
Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。
本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T03:13:11Z) - FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。
本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - An Effective Deep Network for Head Pose Estimation without Keypoints [0.0]
本稿では,頭部ポーズ推定問題を効果的に解決する軽量モデルを提案する。
提案手法は,最先端の頭部ポーズ推定手法と比較して精度を著しく向上させる。
当社のモデルでは、Tesla V100を推測すると、リアルタイムの速度は300FPS($sim$300 FPS)です。
論文 参考訳(メタデータ) (2022-10-25T01:57:04Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - MaskFace: multi-task face and landmark detector [0.0]
顔およびランドマーク検出のための高精度なモデルを提案する。
MaskFaceと呼ばれるこの方法は、キーポイント予測ヘッドを追加することで、以前の顔検出アプローチを拡張している。
AFW,PASCAL顔,FDDB,WIDER FACEデータセットおよびAFLW,300WデータセットのランドマークローカライズタスクにおけるMaskFaceの性能を評価する。
論文 参考訳(メタデータ) (2020-05-19T13:09:28Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。