論文の概要: Deep Entwined Learning Head Pose and Face Alignment Inside an
Attentional Cascade with Doubly-Conditional fusion
- arxiv url: http://arxiv.org/abs/2004.06558v1
- Date: Tue, 14 Apr 2020 14:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:05:23.650433
- Title: Deep Entwined Learning Head Pose and Face Alignment Inside an
Attentional Cascade with Doubly-Conditional fusion
- Title(参考訳): ダブルコンディション融合を伴う意図的カスケード内における深層学習用ヘッドポースと顔アライメント
- Authors: Arnaud Dapogny, K\'evin Bailly and Matthieu Cord
- Abstract要約: 頭部ポーズ推定と顔アライメントは、顔分析に依存する多くのアプリケーションのためのバックボーン前処理を構成する。
本稿では,顔のアライメントと頭部ポーズタスクを,注目のカスケード内で行うことを提案する。
アーキテクチャ内での頭ポーズとランドマークのローカライゼーションのメリットを実証的に示す。
- 参考スコア(独自算出の注目度): 42.50876580245864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Head pose estimation and face alignment constitute a backbone preprocessing
for many applications relying on face analysis. While both are closely related
tasks, they are generally addressed separately, e.g. by deducing the head pose
from the landmark locations. In this paper, we propose to entwine face
alignment and head pose tasks inside an attentional cascade. This cascade uses
a geometry transfer network for integrating heterogeneous annotations to
enhance landmark localization accuracy. Furthermore, we propose a
doubly-conditional fusion scheme to select relevant feature maps, and regions
thereof, based on a current head pose and landmark localization estimate. We
empirically show the benefit of entwining head pose and landmark localization
objectives inside our architecture, and that the proposed AC-DC model enhances
the state-of-the-art accuracy on multiple databases for both face alignment and
head pose estimation tasks.
- Abstract(参考訳): 頭部ポーズ推定と顔アライメントは、顔分析に依存する多くのアプリケーションのためのバックボーン前処理を構成する。
どちらも密接な関係にあるタスクだが、一般的にはランドマークの場所から頭の位置を推測することによって別々に対処される。
本稿では,注目カスケード内における顔のアライメントと頭部ポーズタスクの実施を提案する。
このカスケードは、異種アノテーションを統合するために幾何転送ネットワークを使用し、ランドマークのローカライズ精度を高める。
さらに,現在の頭部位置推定とランドマーク位置推定に基づいて,関連する特徴地図とその地域を選択できる二重条件融合スキームを提案する。
提案するac-dcモデルは,顔のアライメントと頭部位置推定タスクの両方において,複数のデータベースにおける最先端の精度を向上させる。
関連論文リスト
- 6DoF Head Pose Estimation through Explicit Bidirectional Interaction with Face Geometry [3.106167803320563]
本研究は,6DoFヘッドポーズ推定の文脈において,頭部翻訳を推定することの難しさに対処するものである。
本稿では,頭部翻訳・回転・顔幾何ネットワーク(TRG)と呼ばれる新しい手法を提案する。
コントリビューションには、バウンディングボックス補正パラメータを推定する戦略や、ランドマークを画像にアライメントする手法の開発も含まれる。
論文 参考訳(メタデータ) (2024-07-19T09:05:49Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - Shape Preserving Facial Landmarks with Graph Attention Networks [3.996275177789895]
本稿では,CNN と Graph Attention Network Regressors のカスケードを組み合わせたモデルを提案する。
顔のランドマークの外観と位置を共同で表現するエンコーディングと、その信頼性に応じて情報を測定するアテンション機構を導入する。
実験により,提案モデルが顔の構造のグローバルな表現を学習し,頭部ポーズとランドマーク推定のベンチマークで最高性能を達成できることが確認された。
論文 参考訳(メタデータ) (2022-10-13T17:58:02Z) - Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文 参考訳(メタデータ) (2022-08-23T08:42:13Z) - RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark
Detection [131.1478251760399]
顔のランドマーク検出タスクをピラミッド記憶に沿ったランドマーククエリの精製として定式化する。
具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間の関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。
動的ランドマークリファインメント(DLR)モジュールは、ランドマークレグレッションをエンドツーエンドのリファインメント手順に分解するために設計されている。
論文 参考訳(メタデータ) (2022-07-08T14:12:26Z) - Towards Self-Supervised Category-Level Object Pose and Size Estimation [121.28537953301951]
本研究は,一深度画像からのカテゴリレベルのオブジェクトポーズとサイズ推定のための自己教師型フレームワークを提案する。
我々は、同じ形状の点雲における幾何学的整合性を利用して自己超越する。
論文 参考訳(メタデータ) (2022-03-06T06:02:30Z) - Multi-task head pose estimation in-the-wild [7.476901945542385]
画像中の頭部ポーズ推定のための深層学習に基づくマルチタスク手法を提案する。
顔のポーズ、アライメント、可視性の間の強い依存関係を利用して、3つのタスクすべてで最高のパフォーマンスモデルを作成します。
論文 参考訳(メタデータ) (2022-02-04T18:35:52Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Deep Structured Prediction for Facial Landmark Detection [59.60946775628646]
本稿では,深層畳み込みネットワークと条件付きランダムフィールドを組み合わせた深層構造顔のランドマーク検出手法を提案する。
顔のランドマーク検出における最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-18T17:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。