論文の概要: Simultaneous face detection and 360 degree headpose estimation
- arxiv url: http://arxiv.org/abs/2111.11604v1
- Date: Tue, 23 Nov 2021 01:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:57:19.668350
- Title: Simultaneous face detection and 360 degree headpose estimation
- Title(参考訳): 同時顔検出と360度頭部推定
- Authors: Hoang Nguyen Viet, Linh Nguyen Viet, Tuan Nguyen Dinh, Duc Tran Minh,
Long Tran Quoc
- Abstract要約: 顔検出モデルから抽出した特徴を利用するマルチタスクネットモデルを提案する。
マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With many practical applications in human life, including manufacturing
surveillance cameras, analyzing and processing customer behavior, many
researchers are noticing face detection and head pose estimation on digital
images. A large number of proposed deep learning models have state-of-the-art
accuracy such as YOLO, SSD, MTCNN, solving the problem of face detection or
HopeNet, FSA-Net, RankPose model used for head pose estimation problem.
According to many state-of-the-art methods, the pipeline of this task consists
of two parts, from face detection to head pose estimation. These two steps are
completely independent and do not share information. This makes the model clear
in setup but does not leverage most of the featured resources extracted in each
model. In this paper, we proposed the Multitask-Net model with the motivation
to leverage the features extracted from the face detection model, sharing them
with the head pose estimation branch to improve accuracy. Also, with the
variety of data, the Euler angle domain representing the face is large, our
model can predict with results in the 360 Euler angle domain. Applying the
multitask learning method, the Multitask-Net model can simultaneously predict
the position and direction of the human head. To increase the ability to
predict the head direction of the model, we change there presentation of the
human face from the Euler angle to vectors of the Rotation matrix.
- Abstract(参考訳): 監視カメラの製造、顧客の行動の分析と処理など、人間の生活における多くの実践的な応用により、多くの研究者がデジタル画像の顔検出と頭部ポーズ推定に気づいている。
提案する深層学習モデルの多くは、顔検出やホープネット、FSA-Net、ヘッドポーズ推定に使用されるRandPoseモデルといった最先端の精度を持つ。
多くの最先端手法によれば、このタスクのパイプラインは顔検出から頭部ポーズ推定までの2つの部分で構成されている。
この2つのステップは完全に独立しており、情報を共有していない。
これにより、モデルのセットアップが明確になるが、各モデルで抽出されたリソースの大部分を活用できない。
本稿では,顔検出モデルから抽出した特徴を利用したマルチタスク・ネットモデルを提案する。
また、様々なデータにより、顔を表すオイラー角領域は大きいので、我々のモデルは360度オイラー角領域の結果を予測することができる。
マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。
モデルの頭部方向を予測する能力を高めるため,人間の顔の提示をユーラー角から回転行列のベクトルに変更する。
関連論文リスト
- Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - An Effective Deep Network for Head Pose Estimation without Keypoints [0.0]
本稿では,頭部ポーズ推定問題を効果的に解決する軽量モデルを提案する。
提案手法は,最先端の頭部ポーズ推定手法と比較して精度を著しく向上させる。
当社のモデルでは、Tesla V100を推測すると、リアルタイムの速度は300FPS($sim$300 FPS)です。
論文 参考訳(メタデータ) (2022-10-25T01:57:04Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - MaskFace: multi-task face and landmark detector [0.0]
顔およびランドマーク検出のための高精度なモデルを提案する。
MaskFaceと呼ばれるこの方法は、キーポイント予測ヘッドを追加することで、以前の顔検出アプローチを拡張している。
AFW,PASCAL顔,FDDB,WIDER FACEデータセットおよびAFLW,300WデータセットのランドマークローカライズタスクにおけるMaskFaceの性能を評価する。
論文 参考訳(メタデータ) (2020-05-19T13:09:28Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。