Fugu-MT 論文翻訳(概要): Simultaneous face detection and 360 degree headpose estimation

論文の概要: Simultaneous face detection and 360 degree headpose estimation

arxiv url: http://arxiv.org/abs/2111.11604v1
Date: Tue, 23 Nov 2021 01:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-24 14:57:19.668350
Title: Simultaneous face detection and 360 degree headpose estimation
Title（参考訳）: 同時顔検出と360度頭部推定
Authors: Hoang Nguyen Viet, Linh Nguyen Viet, Tuan Nguyen Dinh, Duc Tran Minh, Long Tran Quoc
Abstract要約: 顔検出モデルから抽出した特徴を利用するマルチタスクネットモデルを提案する。マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With many practical applications in human life, including manufacturing surveillance cameras, analyzing and processing customer behavior, many researchers are noticing face detection and head pose estimation on digital images. A large number of proposed deep learning models have state-of-the-art accuracy such as YOLO, SSD, MTCNN, solving the problem of face detection or HopeNet, FSA-Net, RankPose model used for head pose estimation problem. According to many state-of-the-art methods, the pipeline of this task consists of two parts, from face detection to head pose estimation. These two steps are completely independent and do not share information. This makes the model clear in setup but does not leverage most of the featured resources extracted in each model. In this paper, we proposed the Multitask-Net model with the motivation to leverage the features extracted from the face detection model, sharing them with the head pose estimation branch to improve accuracy. Also, with the variety of data, the Euler angle domain representing the face is large, our model can predict with results in the 360 Euler angle domain. Applying the multitask learning method, the Multitask-Net model can simultaneously predict the position and direction of the human head. To increase the ability to predict the head direction of the model, we change there presentation of the human face from the Euler angle to vectors of the Rotation matrix.
Abstract（参考訳）: 監視カメラの製造、顧客の行動の分析と処理など、人間の生活における多くの実践的な応用により、多くの研究者がデジタル画像の顔検出と頭部ポーズ推定に気づいている。提案する深層学習モデルの多くは、顔検出やホープネット、FSA-Net、ヘッドポーズ推定に使用されるRandPoseモデルといった最先端の精度を持つ。多くの最先端手法によれば、このタスクのパイプラインは顔検出から頭部ポーズ推定までの2つの部分で構成されている。この2つのステップは完全に独立しており、情報を共有していない。これにより、モデルのセットアップが明確になるが、各モデルで抽出されたリソースの大部分を活用できない。本稿では,顔検出モデルから抽出した特徴を利用したマルチタスク・ネットモデルを提案する。また、様々なデータにより、顔を表すオイラー角領域は大きいので、我々のモデルは360度オイラー角領域の結果を予測することができる。マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。モデルの頭部方向を予測する能力を高めるため,人間の顔の提示をユーラー角から回転行列のベクトルに変更する。

関連論文リスト

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior [82.9526308672547]
DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
論文参考訳（メタデータ） (2025-08-01T12:56:39Z)
NLML-HPE: Head Pose Estimation with Limited Data via Manifold Learning [0.8716913598251385]
頭部ポーズ推定(HPE)は、人間とコンピュータの相互作用や顔認識など、様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たす。非線形多様体学習による限られた訓練データを用いた頭部ポーズ推定のための新しい深層学習手法を提案する。本手法は,顔のランドマークから物体の回転特性を正確に把握するので,限られたトレーニングデータでリアルタイムのパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-24T14:08:33Z)
SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文参考訳（メタデータ） (2024-09-12T12:30:04Z)
HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文参考訳（メタデータ） (2024-05-30T05:43:09Z)
Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。 Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-15T03:13:11Z)
FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文参考訳（メタデータ） (2024-03-19T17:58:04Z)
SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-08-22T15:38:39Z)
An Effective Deep Network for Head Pose Estimation without Keypoints [0.0]
本稿では,頭部ポーズ推定問題を効果的に解決する軽量モデルを提案する。提案手法は,最先端の頭部ポーズ推定手法と比較して精度を著しく向上させる。当社のモデルでは、Tesla V100を推測すると、リアルタイムの速度は300FPS($sim$300 FPS)です。
論文参考訳（メタデータ） (2022-10-25T01:57:04Z)
Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文参考訳（メタデータ） (2021-01-06T13:15:21Z)
Unsupervised 3D Human Pose Representation with Viewpoint and Pose Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-14T14:25:22Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。