論文の概要: VGGT-HPE: Reframing Head Pose Estimation as Relative Pose Prediction
- arxiv url: http://arxiv.org/abs/2604.10106v1
- Date: Sat, 11 Apr 2026 08:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.846215
- Title: VGGT-HPE: Reframing Head Pose Estimation as Relative Pose Prediction
- Title(参考訳): VGGT-HPE:相対的なポーズ予測としての反射型ヘッドポーズ推定
- Authors: Vasiliki Vasileiou, Panagiotis P. Filntisis, Petros Maragos, Kostas Daniilidis,
- Abstract要約: VGGT-HPEは、汎用幾何学基礎モデルに基づいて構築された相対的な頭部ポーズ推定器である。
提案手法は, 暗黙のアンカーの必要性を回避し, 既知のポーズを持つ明示的なアンカーから幾何変位を推定する問題を緩和する。
実世界のトレーニングデータがないにもかかわらず、VGGT-HPEはBIWIベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 39.937064557481555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular head pose estimation is traditionally formulated as direct regression from a single image to an absolute pose. This paradigm forces the network to implicitly internalize a dataset-specific canonical reference frame. In this work, we argue that predicting the relative rigid transformation between two observed head configurations is a fundamentally easier and more robust formulation. We introduce VGGT-HPE, a relative head pose estimator built upon a general-purpose geometry foundation model. Finetuned exclusively on synthetic facial renderings, our method sidesteps the need for an implicit anchor by reducing the problem to estimating a geometric displacement from an explicitly provided anchor with a known pose. As a practical benefit, the relative formulation also allows the anchor to be chosen at test time - for instance, a near-neutral frame or a temporally adjacent one - so that the prediction difficulty can be controlled by the application. Despite zero real-world training data, VGGT-HPE achieves state-of-the-art results on the BIWI benchmark, outperforming established absolute regression methods trained on mixed and real datasets. Through controlled easy- and hard-pair benchmarks, we also systematically validate our core hypothesis: relative prediction is intrinsically more accurate than absolute regression, with the advantage scaling alongside the difficulty of the target pose. Project page and code: https://vasilikivas.github.io/VGGT-HPE
- Abstract(参考訳): 単眼の頭部ポーズ推定は、伝統的に単一の画像から絶対的なポーズへの直接回帰として定式化されている。
このパラダイムは、データセット固有の標準参照フレームを暗黙的に内部化する。
本研究では、2つの観測された頭部構成間の相対的な剛性変換を予測することは、基本的に簡単でより堅牢な定式化であると主張する。
汎用幾何学基礎モデルに基づいて構築された相対的頭部ポーズ推定器であるVGGT-HPEを紹介する。
合成顔のレンダリングのみに特化して,提案手法は,暗黙のアンカーの必要性を回避し,明示されたアンカーからの幾何変位を既知のポーズで推定する。
実用上の利点として、相対的な定式化では、アンカーをテスト時に(例えば、近中性フレームや時間的に隣接したフレームなど)選択することもできるため、予測の難しさをアプリケーションによって制御することができる。
実世界のトレーニングデータがゼロであるにも関わらず、VGGT-HPEはBIWIベンチマークで最先端の結果を達成する。
相対予測は絶対回帰よりも本質的に正確であり、ターゲットのポーズの難しさと並行してスケールする利点がある。
プロジェクトページとコード:https://vasilikivas.github.io/VGGT-HPE
関連論文リスト
- Object Pose Transformer: Unifying Unseen Object Pose Estimation [54.20344997573707]
モデルなしのオブジェクトポーズ推定を未知のインスタンスで学習することは、3Dビジョンにおける根本的な課題である。
我々のチームは、RGB入力から深度、ポイントマップ、カメラパラメータ、正規化されたオブジェクト座標を共同で予測します。
当社はカメラ非依存で、カメラ固有の知識をオンザフライで学習し、メトリックスケールリカバリのためのオプションの深度入力をサポートします。
論文 参考訳(メタデータ) (2026-03-24T16:04:16Z) - ER-Pose: Rethinking Keypoint-Driven Representation Learning for Real-Time Human Pose Estimation [2.2248409468073143]
単一段階の多人数ポーズ推定は、人間の位置推定とキーポイント予測を共同で行うことを目的としている。
ボックス駆動単段ポーズ推定は、トレーニング中にバウンディングボックスの監督によって暗黙的に制限される。
本稿では,主予測目標に対するポーズ推定を高めるキーポイント駆動型学習パラダイムを提案する。
MS COCOとCrowdPoseでは、ER-Pose-nはプレトレーニングなしで3.2/6.7、プレトレーニングで7.4/4.9のAP改善を実現している。
論文 参考訳(メタデータ) (2026-03-09T17:49:46Z) - Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Bidirectional Regression for Monocular 6DoF Head Pose Estimation and Reference System Alignment [23.65735794927899]
TRGv2は、我々のTranslation, Rotation, and Geometry (TRG)ネットワークの軽量拡張である。
顔のランドマークと6DoFは、ランドマーク・ツー・イメージ・プロジェクションで反復的なリファインメントループを通してポーズを推測する。
アウト・オブ・ディストリビューションデータへの一般化を改善するため、TRGv2は変換を直接予測するのではなく、補正パラメータを回帰する。
不整合性中心定義によるデータセット間評価において,これまで見過ごされていたバイアス源を同定する。
論文 参考訳(メタデータ) (2024-07-19T09:05:49Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - TFPose: Direct Human Pose Estimation with Transformers [83.03424247905869]
ポーズ推定タスクを変換器で効果的に解くことができるシーケンス予測問題に定式化します。
我々のフレームワークは単純で直接的であり、ヒートマップに基づくポーズ推定の欠点を回避している。
MS-COCOおよびMPIIデータセットの実験は、この手法が回帰ベースのポーズ推定の最先端を大幅に改善できることを示しています。
論文 参考訳(メタデータ) (2021-03-29T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。