論文の概要: 6DoF Head Pose Estimation through Explicit Bidirectional Interaction with Face Geometry
- arxiv url: http://arxiv.org/abs/2407.14136v1
- Date: Fri, 19 Jul 2024 09:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:13:50.045307
- Title: 6DoF Head Pose Estimation through Explicit Bidirectional Interaction with Face Geometry
- Title(参考訳): 顔形状と両方向の明示的相互作用による6DoFヘッドポース推定
- Authors: Sungho Chun, Ju Yong Chang,
- Abstract要約: 本研究は,6DoFヘッドポーズ推定の文脈において,頭部翻訳を推定することの難しさに対処するものである。
本稿では,頭部翻訳・回転・顔幾何ネットワーク(TRG)と呼ばれる新しい手法を提案する。
コントリビューションには、バウンディングボックス補正パラメータを推定する戦略や、ランドマークを画像にアライメントする手法の開発も含まれる。
- 参考スコア(独自算出の注目度): 3.106167803320563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study addresses the nuanced challenge of estimating head translations within the context of six-degrees-of-freedom (6DoF) head pose estimation, placing emphasis on this aspect over the more commonly studied head rotations. Identifying a gap in existing methodologies, we recognized the underutilized potential synergy between facial geometry and head translation. To bridge this gap, we propose a novel approach called the head Translation, Rotation, and face Geometry network (TRG), which stands out for its explicit bidirectional interaction structure. This structure has been carefully designed to leverage the complementary relationship between face geometry and head translation, marking a significant advancement in the field of head pose estimation. Our contributions also include the development of a strategy for estimating bounding box correction parameters and a technique for aligning landmarks to image. Both of these innovations demonstrate superior performance in 6DoF head pose estimation tasks. Extensive experiments conducted on ARKitFace and BIWI datasets confirm that the proposed method outperforms current state-of-the-art techniques. Codes are released at https://github.com/asw91666/TRG-Release.
- Abstract(参考訳): 本研究は,6自由度 (6DoF) の頭部ポーズ推定の文脈において,頭部翻訳を推定する難題に対処し,より一般的に研究されている頭部回転よりも,この側面に重点を置いている。
既存の手法のギャップを同定し,顔形状と頭部翻訳の相乗効果が不十分であることを確認した。
このギャップを埋めるために,頭部翻訳,回転,顔幾何ネットワーク (TRG) と呼ばれる新しい手法を提案する。
この構造は顔形状と頭部翻訳の相補的関係を活用するために慎重に設計されており、頭部ポーズ推定の分野における顕著な進歩を示している。
コントリビューションには、バウンディングボックス補正パラメータを推定する戦略や、ランドマークを画像にアライメントする手法の開発も含まれる。
これら2つのイノベーションは、6DoFヘッドポーズ推定タスクにおいて優れたパフォーマンスを示す。
ARKitFaceとBIWIデータセットによる大規模な実験により、提案手法が現在の最先端技術より優れていることを確認した。
コードはhttps://github.com/asw91666/TRG-Release.comで公開されている。
関連論文リスト
- Full-range Head Pose Geometric Data Augmentations [2.8358100463599722]
多くのヘッドポーズ推定(HPE)メソッドは、フルレンジデータセットを作成する能力を約束する。
これらの手法は、頭部角度の範囲内でのみ正確であり、この特定の範囲を超えると、重大な不正確な結果がもたらされる。
本稿では,正しい軸列の座標系とオイラー角を正確に推定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-02T20:41:18Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - Geo6D: Geometric Constraints Learning for 6D Pose Estimation [21.080439293774464]
直接回帰6Dポーズ推定のためのGeo6Dと呼ばれる新しい幾何学的制約学習手法を提案する。
また,Geo6Dを装着すると,複数のデータセット上で直接6D手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-20T02:00:58Z) - GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D
Object Pose Estimation [71.83992173720311]
単一のRGB画像からの6次元ポーズ推定はコンピュータビジョンの基本課題である。
GDR-Net(Geometry-Guided Direct Regression Network)を用いて6Dポーズをエンドツーエンドで学習する。
提案手法は, LM, LM-O, YCB-Vデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2021-02-24T09:11:31Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - Deep Entwined Learning Head Pose and Face Alignment Inside an
Attentional Cascade with Doubly-Conditional fusion [42.50876580245864]
頭部ポーズ推定と顔アライメントは、顔分析に依存する多くのアプリケーションのためのバックボーン前処理を構成する。
本稿では,顔のアライメントと頭部ポーズタスクを,注目のカスケード内で行うことを提案する。
アーキテクチャ内での頭ポーズとランドマークのローカライゼーションのメリットを実証的に示す。
論文 参考訳(メタデータ) (2020-04-14T14:42:35Z) - HP2IFS: Head Pose estimation exploiting Partitioned Iterated Function
Systems [18.402636415604373]
2次元画像から実際の頭部方向を推定することはよく知られた問題である。
フラクタル符号理論と分割反復システムを用いて入力ヘッド画像からフラクタル符号を抽出する。
提案手法は,正確なYaw/pitch/roll角値を提供する。
論文 参考訳(メタデータ) (2020-03-25T17:56:45Z) - Boosting Deep Face Recognition via Disentangling Appearance and Geometry [33.196270681809395]
顔認識タスクにおける外観と幾何学的表現を両立させる枠組みを提案する。
空間変換を取り入れた幾何学的に同一の顔を生成する。
提案手法は深層顔認識モデルの性能を向上させる。
論文 参考訳(メタデータ) (2020-01-13T23:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。