論文の概要: CLERF: Contrastive LEaRning for Full Range Head Pose Estimation
- arxiv url: http://arxiv.org/abs/2412.02066v1
- Date: Tue, 03 Dec 2024 01:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:41.586585
- Title: CLERF: Contrastive LEaRning for Full Range Head Pose Estimation
- Title(参考訳): CLERF:フルレンジヘッドポーズ推定のためのコントラストリーニング
- Authors: Ting-Ruen Wei, Haowei Liu, Huei-Chung Hu, Xuyang Wu, Yi Fang, Hsin-Tai Wu,
- Abstract要約: 頭部ポーズ推定(HPE)における表現学習のための新しいフレームワークを提案する。
3次元生成対向ネットワーク(3D-Aware GAN)の最近の進歩
- 参考スコア(独自算出の注目度): 8.938918988246128
- License:
- Abstract: We introduce a novel framework for representation learning in head pose estimation (HPE). Previously such a scheme was difficult due to head pose data sparsity, making triplet sampling infeasible. Recent progress in 3D generative adversarial networks (3D-aware GAN) has opened the door for easily sampling triplets (anchor, positive, negative). We perform contrastive learning on extensively augmented data including geometric transformations and demonstrate that contrastive learning allows networks to learn genuine features that contribute to accurate HPE. On the other hand, we observe that existing HPE works struggle to predict head poses as accurately when test image rotation matrices are slightly out of the training dataset distribution. Experiments show that our methodology performs on par with state-of-the-art models on standard test datasets and outperforms them when images are slightly rotated/ flipped or full range head pose. To the best of our knowledge, we are the first to deliver a true full range HPE model capable of accurately predicting any head pose including upside-down pose. Furthermore, we compared with other existing full-yaw range models and demonstrated superior results.
- Abstract(参考訳): 本稿では,頭部ポーズ推定(HPE)における表現学習のための新しいフレームワークを提案する。
以前は、頭部データ間隔のため、このようなスキームは困難であり、トリプルトサンプリングは実現不可能であった。
3次元生成対向ネットワーク(3D-aware GAN)の最近の進歩は、容易に三重項(アンカー、正、負)をサンプリングするための扉を開いた。
幾何変換を含む拡張データに対してコントラスト学習を行い、コントラスト学習によってネットワークが正確なHPEに寄与する真の特徴を学習できることを実証する。
一方、既存のHPE作業では、テスト画像回転行列がトレーニングデータセットの分布からやや外れている場合に、頭部の姿勢を正確に予測するのに苦労している。
実験により,本手法は標準的なテストデータセットの最先端モデルと同等に動作し,画像がわずかに回転/反転/フルレンジヘッドポーズの場合に性能が向上することが示された。
我々の知る限りでは、私たちは、逆さまのポーズを含む任意の頭部ポーズを正確に予測できる真のフルレンジHPEモデルを初めて提供しました。
さらに,既存の全射射射程モデルと比較し,優れた結果を示した。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Learning 3D-Aware GANs from Unposed Images with Template Feature Field [33.32761749864555]
この研究は、未提示の画像から3D対応のGANを学習することを目的としている。
学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を提案する。
論文 参考訳(メタデータ) (2024-04-08T17:42:08Z) - Towards Robust 3D Pose Transfer with Adversarial Learning [36.351835328908116]
望ましいポーズをターゲットメッシュに転送することを目的とした3Dポーズ転送は、最も困難な3D生成タスクの1つである。
以前の試みは、よく定義されたパラメトリックな人体モデルや骨格関節を駆動するポーズ源として頼っていた。
3次元外部プレゼンテーション(ポーズ)を効果的に学習するカスタマイズされたMAEである3D-PoseMAEを提案する。
論文 参考訳(メタデータ) (2024-04-02T19:03:39Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Instant Multi-View Head Capture through Learnable Registration [62.70443641907766]
3次元頭部のデータセットを密接なセマンティック通信でキャプチャする既存の手法は遅い。
キャリブレーションされたマルチビュー画像から3Dヘッドを直接推定するためにTEMPEHを導入する。
1つの頭部の予測には0.3秒かかるが、中央値の復元誤差は0.26mmで、現在の最先端よりも64%低い。
論文 参考訳(メタデータ) (2023-06-12T21:45:18Z) - Learning 3D-aware Image Synthesis with Unknown Pose Distribution [68.62476998646866]
既存の3D画像合成法は、トレーニングセットに基づいて事前に推定された3Dポーズ分布に依存する。
本研究は3次元ポーズ先行条件から生成放射場を解放するPoF3Dを提案する。
論文 参考訳(メタデータ) (2023-01-18T18:47:46Z) - Leveraging Equivariant Features for Absolute Pose Regression [9.30597356471664]
変換と回転の同変である畳み込みニューラルネットワークは,カメラの動きの表現を直接特徴空間に誘導することを示す。
次に、この幾何学的性質により、画像平面保存変換の全グループの下でトレーニングデータを暗黙的に増大させることができることを示す。
論文 参考訳(メタデータ) (2022-04-05T12:44:20Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。