論文の概要: Densemarks: Learning Canonical Embeddings for Human Heads Images via Point Tracks
- arxiv url: http://arxiv.org/abs/2511.02830v1
- Date: Tue, 04 Nov 2025 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.161074
- Title: Densemarks: Learning Canonical Embeddings for Human Heads Images via Point Tracks
- Title(参考訳): Densemarks:ポイントトラックによる人間の頭部画像のための標準的な埋め込み学習
- Authors: Dmitrii Pozdeev, Alexey Artemov, Ananta R. Bhattarai, Artem Sevastopolsky,
- Abstract要約: 人間の頭部の2D画像に対して、ビジョントランスフォーマーネットワークは、各画素の3D埋め込みを予測し、3D標準単位立方体内の位置に対応する。
顔のランドマークとセグメンテーションの制約を伴うマルチタスク学習を採用し、埋め込みの空間的連続性を示唆する。
この表現は、一般的な意味的部分、顔/頭部追跡、ステレオ再構成を見つけるのに使うことができる。
- 参考スコア(独自算出の注目度): 4.562267702525219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DenseMarks - a new learned representation for human heads, enabling high-quality dense correspondences of human head images. For a 2D image of a human head, a Vision Transformer network predicts a 3D embedding for each pixel, which corresponds to a location in a 3D canonical unit cube. In order to train our network, we collect a dataset of pairwise point matches, estimated by a state-of-the-art point tracker over a collection of diverse in-the-wild talking heads videos, and guide the mapping via a contrastive loss, encouraging matched points to have close embeddings. We further employ multi-task learning with face landmarks and segmentation constraints, as well as imposing spatial continuity of embeddings through latent cube features, which results in an interpretable and queryable canonical space. The representation can be used for finding common semantic parts, face/head tracking, and stereo reconstruction. Due to the strong supervision, our method is robust to pose variations and covers the entire head, including hair. Additionally, the canonical space bottleneck makes sure the obtained representations are consistent across diverse poses and individuals. We demonstrate state-of-the-art results in geometry-aware point matching and monocular head tracking with 3D Morphable Models. The code and the model checkpoint will be made available to the public.
- Abstract(参考訳): DenseMarks - 人間の頭部画像の高精細な対応を可能にする、人間の頭部の新たな学習表現を提案する。
人間の頭部の2D画像に対して、ビジョントランスフォーマーネットワークは、各画素の3D埋め込みを予測し、3D標準単位立方体内の位置に対応する。
ネットワークをトレーニングするために,多種多様な会話ヘッドビデオのコレクション上で,最先端のポイントトラッカーによって推定される一対のポイントマッチのデータセットを収集し,そのマッピングを対照的な損失でガイドし,マッチしたポイントに密着した埋め込みを奨励する。
さらに、顔のランドマークやセグメンテーション制約によるマルチタスク学習や、遅延立方体特徴による埋め込みの空間連続性を示唆し、解釈可能でクエリ可能な標準空間を実現する。
この表現は、一般的な意味的部分、顔/頭部追跡、ステレオ再構成を見つけるのに使うことができる。
強い監督力のため,髪を含む頭部全体に変化を呈し,頭部全体を覆い隠すことが可能である。
さらに、標準空間ボトルネックは、得られた表現が様々なポーズや個人間で一致していることを保証する。
3次元Morphable Modelを用いた幾何認識点マッチングと単分子ヘッドトラッキングの最先端結果を示す。
コードとモデルチェックポイントは一般公開される予定だ。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D
Images [82.5266467869448]
Inverse Graphics Capsule Network (IGC-Net) を提案する。
IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。
論文 参考訳(メタデータ) (2023-03-20T06:32:55Z) - Pixel2ISDF: Implicit Signed Distance Fields based Human Body Model from
Multi-view and Multi-pose Images [67.45882013828256]
我々は,複数の視点と人間のポーズを入力として,標準空間における衣服付き人間の再構築に焦点をあてる。
複数の入力画像を活用することで、ポーズメッシュ上の潜時符号を学習し、その後、標準空間内のメッシュに潜時符号を割り当てる。
本研究は,WCPA MVP-Human Body Challengeにおいて,人体形状を復元する作業を行い,第3の成果を得た。
論文 参考訳(メタデータ) (2022-12-06T05:30:49Z) - Learning Neural Parametric Head Models [7.679586286000453]
そこで本研究では,ハイブリッドニューラルネットワークを用いた人間の頭部の3次元形状モデルを提案する。
我々は,手動距離場(SDF)として標準空間内の人物の身元を捉え,ニューラルな変形場を持つ表情をモデル化する。
我々の表現は、顔のアンカーポイントを中心とした局所フィールドのアンサンブルを導入することで、高忠実な局所詳細を実現する。
論文 参考訳(メタデータ) (2022-12-06T05:24:42Z) - Unsupervised 3D Keypoint Discovery with Multi-View Geometry [104.76006413355485]
本研究では,多視点画像から人体上の3Dキーポイントを,監督やラベルなしで発見するアルゴリズムを提案する。
我々の手法は、他の最先端の教師なしアプローチと比較して、より解釈可能で正確な3Dキーポイントを発見する。
論文 参考訳(メタデータ) (2022-11-23T10:25:12Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。