論文の概要: A Real-Time Multi-Task Learning System for Joint Detection of Face,
Facial Landmark and Head Pose
- arxiv url: http://arxiv.org/abs/2309.11773v1
- Date: Thu, 21 Sep 2023 04:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:52:43.910314
- Title: A Real-Time Multi-Task Learning System for Joint Detection of Face,
Facial Landmark and Head Pose
- Title(参考訳): 顔, 顔ランドマーク, 頭部ポーズの同時検出のためのリアルタイムマルチタスク学習システム
- Authors: Qingtian Wu and Liming Zhang
- Abstract要約: 極度の頭位姿勢は、さまざまな顔分析タスクに共通の課題をもたらす。
本稿では,これらのタスクの統合,特に大角顔のポーズによって生じる複雑さに対処することに焦点を当てる。
本研究の主な貢献は,リアルタイムマルチタスク検出システムの提案である。
- 参考スコア(独自算出の注目度): 3.661587008381534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extreme head postures pose a common challenge across a spectrum of facial
analysis tasks, including face detection, facial landmark detection (FLD), and
head pose estimation (HPE). These tasks are interdependent, where accurate FLD
relies on robust face detection, and HPE is intricately associated with these
key points. This paper focuses on the integration of these tasks, particularly
when addressing the complexities posed by large-angle face poses. The primary
contribution of this study is the proposal of a real-time multi-task detection
system capable of simultaneously performing joint detection of faces, facial
landmarks, and head poses. This system builds upon the widely adopted YOLOv8
detection framework. It extends the original object detection head by
incorporating additional landmark regression head, enabling efficient
localization of crucial facial landmarks. Furthermore, we conduct optimizations
and enhancements on various modules within the original YOLOv8 framework. To
validate the effectiveness and real-time performance of our proposed model, we
conduct extensive experiments on 300W-LP and AFLW2000-3D datasets. The results
obtained verify the capability of our model to tackle large-angle face pose
challenges while delivering real-time performance across these interconnected
tasks.
- Abstract(参考訳): 極端な頭部姿勢は、顔検出、顔ランドマーク検出(fld)、頭部ポーズ推定(hpe)など、さまざまな顔分析タスクにおいて共通の課題となる。
これらのタスクは相互依存しており、正確なFLDは堅牢な顔検出に依存し、HPEはこれらのキーポイントと複雑に関連付けられている。
本稿では,これらのタスクの統合,特に大角顔のポーズによって生じる複雑さに対処することに焦点を当てる。
本研究の主な貢献は、顔、顔のランドマーク、頭部のポーズを同時に検出できるリアルタイムマルチタスク検出システムを提案することである。
このシステムは広く採用されているyolov8検出フレームワークに基づいている。
ランドマーク回帰ヘッドを追加することで、オリジナルのオブジェクト検出ヘッドを拡張し、重要な顔ランドマークの効率的なローカライズを可能にする。
さらに、元のyolov8フレームワークで様々なモジュールの最適化と拡張を行います。
提案モデルの有効性と実時間性能を検証するため,300W-LPおよびAFLW2000-3Dデータセットについて広範な実験を行った。
その結果,これらのタスク間でリアルタイムパフォーマンスを提供しながら,大角面の課題に対処できるモデルの能力を検証することができた。
関連論文リスト
- Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - Effectiveness Assessment of Recent Large Vision-Language Models [82.08377770649777]
専門的・汎用的なタスクにおいて,一般的な大規模視覚言語モデル(LVLM)の能力を評価する。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても, 限られた習熟度を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - CLERA: A Unified Model for Joint Cognitive Load and Eye Region Analysis
in the Wild [18.79132232751083]
目領域のダイナミックスをリアルタイムに分析することで、人間の視覚的注意の割り当てを監視し、精神状態を推定することができる。
共同学習フレームワークにおいて,正確なキーポイント検出と時間追跡を実現するCLERAを提案する。
また,共同瞳孔,眼開放性,ランドマークアノテーションを用いた30万人の顔の大規模データセットも導入した。
論文 参考訳(メタデータ) (2023-06-26T21:20:23Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - Towards a Real-Time Facial Analysis System [13.649384403827359]
本稿では,リアルタイム顔分析システムのシステムレベル設計について述べる。
オブジェクトの検出、分類、回帰のためのディープニューラルネットワークのコレクションにより、カメラビューに現れる各人物の年齢、性別、表情、顔の類似性を認識する。
一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイムの要求を満たすことが示された。
論文 参考訳(メタデータ) (2021-09-21T18:27:15Z) - MAFER: a Multi-resolution Approach to Facial Expression Recognition [9.878384185493623]
そこで本稿では,表情認識に携わる深層学習モデルを訓練するための2段階学習手法であるMAFERを提案する。
MAFERの関連する特徴は、タスクに依存しない、すなわち、他の客観的関連技術に補完的に使用できることである。
論文 参考訳(メタデータ) (2021-05-06T07:26:58Z) - An Efficient Multitask Neural Network for Face Alignment, Head Pose
Estimation and Face Tracking [9.39854778804018]
効率的なマルチタスク顔アライメント、顔追跡、頭部ポーズ推定ネットワーク(ATPN)を提案します。
ATPNは従来の最先端手法に比べて性能が向上し、パラメータやFLOPSは少ない。
論文 参考訳(メタデータ) (2021-03-13T04:41:15Z) - Deep Active Shape Model for Face Alignment and Pose Estimation [0.2148535041822524]
アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。
本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:46:54Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。