論文の概要: Multi-task head pose estimation in-the-wild
- arxiv url: http://arxiv.org/abs/2202.02299v1
- Date: Fri, 4 Feb 2022 18:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 15:59:31.421915
- Title: Multi-task head pose estimation in-the-wild
- Title(参考訳): マルチタスクの頭部ポーズ推定
- Authors: Roberto Valle, Jos\'e Miguel Buenaposada and Luis Baumela
- Abstract要約: 画像中の頭部ポーズ推定のための深層学習に基づくマルチタスク手法を提案する。
顔のポーズ、アライメント、可視性の間の強い依存関係を利用して、3つのタスクすべてで最高のパフォーマンスモデルを作成します。
- 参考スコア(独自算出の注目度): 7.476901945542385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a deep learning-based multi-task approach for head pose estimation
in images. We contribute with a network architecture and training strategy that
harness the strong dependencies among face pose, alignment and visibility, to
produce a top performing model for all three tasks. Our architecture is an
encoder-decoder CNN with residual blocks and lateral skip connections. We show
that the combination of head pose estimation and landmark-based face alignment
significantly improve the performance of the former task. Further, the location
of the pose task at the bottleneck layer, at the end of the encoder, and that
of tasks depending on spatial information, such as visibility and alignment, in
the final decoder layer, also contribute to increase the final performance. In
the experiments conducted the proposed model outperforms the state-of-the-art
in the face pose and visibility tasks. By including a final landmark regression
step it also produces face alignment results on par with the state-of-the-art.
- Abstract(参考訳): 画像中の頭部ポーズ推定のための深層学習に基づくマルチタスク手法を提案する。
私たちは、顔のポーズ、アライメント、可視性の間の強い依存関係を利用するネットワークアーキテクチャとトレーニング戦略に貢献し、3つのタスクで最高のパフォーマンスモデルを作成します。
我々のアーキテクチャはエンコーダ・デコーダCNNであり、残差ブロックと横スキップ接続を持つ。
頭部姿勢推定とランドマークに基づく顔アライメントの組み合わせにより,前者のタスクの性能が著しく向上することを示す。
さらに、ボトルネック層、エンコーダの終端におけるポーズタスクの位置と、最終デコーダ層における可視性やアライメントなどの空間情報に依存するタスクの位置も、最終的なパフォーマンスの向上に寄与する。
実験では,提案モデルが顔ポーズと視認性タスクの最先端を上回った。
最終的なランドマーク回帰ステップを含めることで、最先端と同等の顔アライメント結果を生成する。
関連論文リスト
- FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXFormerは、9つの顔分析タスクを実行することができるエンドツーエンドの統一トランスフォーマーモデルである。
これらのタスクには、顔解析、ランドマーク検出、頭部ポーズ推定、属性予測、年齢、性別、人種、表情、顔の可視性などが含まれる。
本稿では,顔トークンとタスクトークンを共同処理し,汎用的で堅牢な顔表現を学習する新しいパラメータ効率デコーダFaceXを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - An Efficient Multitask Neural Network for Face Alignment, Head Pose
Estimation and Face Tracking [9.39854778804018]
効率的なマルチタスク顔アライメント、顔追跡、頭部ポーズ推定ネットワーク(ATPN)を提案します。
ATPNは従来の最先端手法に比べて性能が向上し、パラメータやFLOPSは少ない。
論文 参考訳(メタデータ) (2021-03-13T04:41:15Z) - Deep Entwined Learning Head Pose and Face Alignment Inside an
Attentional Cascade with Doubly-Conditional fusion [42.50876580245864]
頭部ポーズ推定と顔アライメントは、顔分析に依存する多くのアプリケーションのためのバックボーン前処理を構成する。
本稿では,顔のアライメントと頭部ポーズタスクを,注目のカスケード内で行うことを提案する。
アーキテクチャ内での頭ポーズとランドマークのローカライゼーションのメリットを実証的に示す。
論文 参考訳(メタデータ) (2020-04-14T14:42:35Z) - DeepCap: Monocular Human Performance Capture Using Weak Supervision [106.50649929342576]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-03-18T16:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。