論文の概要: A Real-Time Multi-Task Learning System for Joint Detection of Face,
Facial Landmark and Head Pose
- arxiv url: http://arxiv.org/abs/2309.11773v1
- Date: Thu, 21 Sep 2023 04:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:52:43.910314
- Title: A Real-Time Multi-Task Learning System for Joint Detection of Face,
Facial Landmark and Head Pose
- Title(参考訳): 顔, 顔ランドマーク, 頭部ポーズの同時検出のためのリアルタイムマルチタスク学習システム
- Authors: Qingtian Wu and Liming Zhang
- Abstract要約: 極度の頭位姿勢は、さまざまな顔分析タスクに共通の課題をもたらす。
本稿では,これらのタスクの統合,特に大角顔のポーズによって生じる複雑さに対処することに焦点を当てる。
本研究の主な貢献は,リアルタイムマルチタスク検出システムの提案である。
- 参考スコア(独自算出の注目度): 3.661587008381534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extreme head postures pose a common challenge across a spectrum of facial
analysis tasks, including face detection, facial landmark detection (FLD), and
head pose estimation (HPE). These tasks are interdependent, where accurate FLD
relies on robust face detection, and HPE is intricately associated with these
key points. This paper focuses on the integration of these tasks, particularly
when addressing the complexities posed by large-angle face poses. The primary
contribution of this study is the proposal of a real-time multi-task detection
system capable of simultaneously performing joint detection of faces, facial
landmarks, and head poses. This system builds upon the widely adopted YOLOv8
detection framework. It extends the original object detection head by
incorporating additional landmark regression head, enabling efficient
localization of crucial facial landmarks. Furthermore, we conduct optimizations
and enhancements on various modules within the original YOLOv8 framework. To
validate the effectiveness and real-time performance of our proposed model, we
conduct extensive experiments on 300W-LP and AFLW2000-3D datasets. The results
obtained verify the capability of our model to tackle large-angle face pose
challenges while delivering real-time performance across these interconnected
tasks.
- Abstract(参考訳): 極端な頭部姿勢は、顔検出、顔ランドマーク検出(fld)、頭部ポーズ推定(hpe)など、さまざまな顔分析タスクにおいて共通の課題となる。
これらのタスクは相互依存しており、正確なFLDは堅牢な顔検出に依存し、HPEはこれらのキーポイントと複雑に関連付けられている。
本稿では,これらのタスクの統合,特に大角顔のポーズによって生じる複雑さに対処することに焦点を当てる。
本研究の主な貢献は、顔、顔のランドマーク、頭部のポーズを同時に検出できるリアルタイムマルチタスク検出システムを提案することである。
このシステムは広く採用されているyolov8検出フレームワークに基づいている。
ランドマーク回帰ヘッドを追加することで、オリジナルのオブジェクト検出ヘッドを拡張し、重要な顔ランドマークの効率的なローカライズを可能にする。
さらに、元のyolov8フレームワークで様々なモジュールの最適化と拡張を行います。
提案モデルの有効性と実時間性能を検証するため,300W-LPおよびAFLW2000-3Dデータセットについて広範な実験を行った。
その結果,これらのタスク間でリアルタイムパフォーマンスを提供しながら,大角面の課題に対処できるモデルの能力を検証することができた。
関連論文リスト
- Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。
Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。
本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T03:13:11Z) - Improving Facial Landmark Detection Accuracy and Efficiency with Knowledge Distillation [4.779050216649159]
本稿では,知識蒸留法の開発を通じて,これらの課題に対処する新しいアプローチを提案する。
私たちの目標は、さまざまな条件下で顔のランドマークを正確に特定できるモデルを設計することです。
この手法は成功し、IEEE ICME 2024 PAIRコンペティションの参加者165人中6位に終わった。
論文 参考訳(メタデータ) (2024-04-09T05:30:58Z) - FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。
本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - CLERA: A Unified Model for Joint Cognitive Load and Eye Region Analysis
in the Wild [18.79132232751083]
目領域のダイナミックスをリアルタイムに分析することで、人間の視覚的注意の割り当てを監視し、精神状態を推定することができる。
共同学習フレームワークにおいて,正確なキーポイント検出と時間追跡を実現するCLERAを提案する。
また,共同瞳孔,眼開放性,ランドマークアノテーションを用いた30万人の顔の大規模データセットも導入した。
論文 参考訳(メタデータ) (2023-06-26T21:20:23Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - Towards a Real-Time Facial Analysis System [13.649384403827359]
本稿では,リアルタイム顔分析システムのシステムレベル設計について述べる。
オブジェクトの検出、分類、回帰のためのディープニューラルネットワークのコレクションにより、カメラビューに現れる各人物の年齢、性別、表情、顔の類似性を認識する。
一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイムの要求を満たすことが示された。
論文 参考訳(メタデータ) (2021-09-21T18:27:15Z) - An Efficient Multitask Neural Network for Face Alignment, Head Pose
Estimation and Face Tracking [9.39854778804018]
効率的なマルチタスク顔アライメント、顔追跡、頭部ポーズ推定ネットワーク(ATPN)を提案します。
ATPNは従来の最先端手法に比べて性能が向上し、パラメータやFLOPSは少ない。
論文 参考訳(メタデータ) (2021-03-13T04:41:15Z) - Deep Active Shape Model for Face Alignment and Pose Estimation [0.2148535041822524]
アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。
本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。