論文の概要: Bidirectional Regression for Monocular 6DoF Head Pose Estimation and Reference System Alignment
- arxiv url: http://arxiv.org/abs/2407.14136v2
- Date: Fri, 31 Oct 2025 06:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.65227
- Title: Bidirectional Regression for Monocular 6DoF Head Pose Estimation and Reference System Alignment
- Title(参考訳): 単眼6DFヘッドポーズ推定と参照システムアライメントのための双方向回帰
- Authors: Sungho Chun, Boeun Kim, Hyung Jin Chang, Ju Yong Chang,
- Abstract要約: TRGv2は、我々のTranslation, Rotation, and Geometry (TRG)ネットワークの軽量拡張である。
顔のランドマークと6DoFは、ランドマーク・ツー・イメージ・プロジェクションで反復的なリファインメントループを通してポーズを推測する。
アウト・オブ・ディストリビューションデータへの一般化を改善するため、TRGv2は変換を直接予測するのではなく、補正パラメータを回帰する。
不整合性中心定義によるデータセット間評価において,これまで見過ごされていたバイアス源を同定する。
- 参考スコア(独自算出の注目度): 23.65735794927899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise six-degree-of-freedom (6DoF) head pose estimation is crucial for safety-critical applications and human-computer interaction scenarios, yet existing monocular methods still struggle with robust pose estimation. We revisit this problem by introducing TRGv2, a lightweight extension of our previous Translation, Rotation, and Geometry (TRG) network, which explicitly models the bidirectional interaction between facial geometry and head pose. TRGv2 jointly infers facial landmarks and 6DoF pose through an iterative refinement loop with landmark-to-image projection, ensuring metric consistency among face size, rotation, and depth. To further improve generalization to out-of-distribution data, TRGv2 regresses correction parameters instead of directly predicting translation, combining them with a pinhole camera model for analytic depth estimation. In addition, we identify a previously overlooked source of bias in cross-dataset evaluations due to inconsistent head center definitions across different datasets. To address this, we propose a reference system alignment strategy that quantifies and corrects translation bias, enabling fair comparisons across datasets. Extensive experiments on ARKitFace, BIWI, and the challenging DD-Pose benchmarks demonstrate that TRGv2 outperforms state-of-the-art methods in both accuracy and efficiency. Code and newly annotated landmarks for DD-Pose will be publicly available.
- Abstract(参考訳): 高精度6自由度 (6DoF) の頭部ポーズ推定は、安全クリティカルなアプリケーションや人間とコンピュータの相互作用シナリオにおいて重要であるが、既存の単分子法は依然として頑健なポーズ推定に苦慮している。
我々は,従来のTRG(Translation, Rotation, Geometry)ネットワークの軽量拡張であるTRGv2を導入することでこの問題を再考する。
TRGv2は共同で顔のランドマークを推測し、6DoFはランドマーク・ツー・イメージ・プロジェクションによる反復的な洗練されたループを通り、顔のサイズ、回転、深さのメートル法的整合性を確保する。
TRGv2は変換を直接予測する代わりに補正パラメータを回帰し、分析深度推定のためのピンホールカメラモデルと組み合わせる。
さらに,従来見過ごされていたデータセット間評価のバイアス源を,異なるデータセットにまたがる不整合なヘッドセンター定義により同定する。
そこで本研究では,翻訳バイアスを定量化し,修正する参照システムアライメント戦略を提案し,データセット間の公正な比較を可能にする。
ARKitFace、BIWI、そして挑戦的なDD-Poseベンチマークに関する大規模な実験は、TRGv2が精度と効率の両方で最先端の手法より優れていることを示した。
DD-Poseのコードと新たに注釈付けされたランドマークが公開される。
関連論文リスト
- Full-range Head Pose Geometric Data Augmentations [2.8358100463599722]
多くのヘッドポーズ推定(HPE)メソッドは、フルレンジデータセットを作成する能力を約束する。
これらの手法は、頭部角度の範囲内でのみ正確であり、この特定の範囲を超えると、重大な不正確な結果がもたらされる。
本稿では,正しい軸列の座標系とオイラー角を正確に推定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-02T20:41:18Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [60.08319512840091]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - Geo6D: Geometric Constraints Learning for 6D Pose Estimation [21.080439293774464]
直接回帰6Dポーズ推定のためのGeo6Dと呼ばれる新しい幾何学的制約学習手法を提案する。
また,Geo6Dを装着すると,複数のデータセット上で直接6D手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-20T02:00:58Z) - GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D
Object Pose Estimation [71.83992173720311]
単一のRGB画像からの6次元ポーズ推定はコンピュータビジョンの基本課題である。
GDR-Net(Geometry-Guided Direct Regression Network)を用いて6Dポーズをエンドツーエンドで学習する。
提案手法は, LM, LM-O, YCB-Vデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2021-02-24T09:11:31Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - Deep Entwined Learning Head Pose and Face Alignment Inside an
Attentional Cascade with Doubly-Conditional fusion [42.50876580245864]
頭部ポーズ推定と顔アライメントは、顔分析に依存する多くのアプリケーションのためのバックボーン前処理を構成する。
本稿では,顔のアライメントと頭部ポーズタスクを,注目のカスケード内で行うことを提案する。
アーキテクチャ内での頭ポーズとランドマークのローカライゼーションのメリットを実証的に示す。
論文 参考訳(メタデータ) (2020-04-14T14:42:35Z) - HP2IFS: Head Pose estimation exploiting Partitioned Iterated Function
Systems [18.402636415604373]
2次元画像から実際の頭部方向を推定することはよく知られた問題である。
フラクタル符号理論と分割反復システムを用いて入力ヘッド画像からフラクタル符号を抽出する。
提案手法は,正確なYaw/pitch/roll角値を提供する。
論文 参考訳(メタデータ) (2020-03-25T17:56:45Z) - Boosting Deep Face Recognition via Disentangling Appearance and Geometry [33.196270681809395]
顔認識タスクにおける外観と幾何学的表現を両立させる枠組みを提案する。
空間変換を取り入れた幾何学的に同一の顔を生成する。
提案手法は深層顔認識モデルの性能を向上させる。
論文 参考訳(メタデータ) (2020-01-13T23:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。