論文の概要: Accurate 3D Facial Geometry Prediction by Multi-Task, Multi-Modal, and
Multi-Representation Landmark Refinement Network
- arxiv url: http://arxiv.org/abs/2104.08403v1
- Date: Fri, 16 Apr 2021 23:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:58:32.109922
- Title: Accurate 3D Facial Geometry Prediction by Multi-Task, Multi-Modal, and
Multi-Representation Landmark Refinement Network
- Title(参考訳): マルチタスク・マルチモーダル・マルチモーダル・マルチ表現ランドマークリファインメントネットワークによる正確な3次元顔形状予測
- Authors: Cho-Ying Wu, Qiangeng Xu, Ulrich Neumann
- Abstract要約: この研究は、3dモデリングと顔方向推定による3d顔アライメントを含む、完全な3d顔形状予測に焦点を当てている。
我々の焦点は、重要な顔の特徴である3Dランドマークに焦点をあて、その埋め込み情報を十分に活用して3D顔形状学習をガイドすることである。
私達は3D顔の幾何学を学ぶすべてのタスクの広範な実験からの芸術の状態を達成します。
- 参考スコア(独自算出の注目度): 14.966695101335704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on complete 3D facial geometry prediction, including 3D
facial alignment via 3D face modeling and face orientation estimation using the
proposed multi-task, multi-modal, and multi-representation landmark refinement
network (M$^3$-LRN). Our focus is on the important facial attributes, 3D
landmarks, and we fully utilize their embedded information to guide 3D facial
geometry learning. We first propose a multi-modal and multi-representation
feature aggregation for landmark refinement. Next, we are the first to study
3DMM regression from sparse 3D landmarks and utilize multi-representation
advantage to attain better geometry prediction. We attain the state of the art
from extensive experiments on all tasks of learning 3D facial geometry. We
closely validate contributions of each modality and representation. Our results
are robust across cropped faces, underwater scenarios, and extreme poses.
Specially we adopt only simple and widely used network operations in M$^3$-LRN
and attain a near 20\% improvement on face orientation estimation over the
current best performance. See our project page here.
- Abstract(参考訳): 本研究は,提案するマルチタスク,マルチモーダル,マルチ表示ランドマークリファインメントネットワーク(m$^3$-lrn)を用いた3次元顔アライメントと顔方向推定を含む,完全な3次元顔形状予測に焦点を当てた。
我々の焦点は、重要な顔の特徴である3Dランドマークに焦点をあて、その埋め込み情報を3D顔形状学習のガイドに活用する。
まず,ランドマークリファインメントのためのマルチモーダル・マルチ表現機能アグリゲーションを提案する。
次に,スパース3次元ランドマークからの3dmm回帰を初めて研究し,複数表現のアドバンテージを生かしてより優れた幾何予測を実現する。
我々は3次元顔形状を学習するあらゆるタスクに関する広範な実験から、この技術の現状を得る。
それぞれのモダリティと表現の貢献をよく検証する。
私たちの結果は、収穫された顔、水中シナリオ、極端なポーズで堅牢です。
特に,m$^3$-lrn における単純かつ広く使用されるネットワーク操作のみを採用し,現在の最良性能に対する顔方向推定の約20%向上を達成している。
プロジェクトのページはこちら。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - Robust 3D Face Alignment with Multi-Path Neural Architecture Search [23.432737053236096]
3D顔のアライメントは、コンピュータビジョンにおいて非常に困難で基本的な問題である。
既存のディープラーニングベースの手法は、異なるネットワークを手動で設計し、3次元顔モデルのパラメータや3次元顔頂点の位置を回帰する。
我々は3次元顔アライメントのための最適なアーキテクチャを自動的に発見するために、Neural Architecture Search (NAS) を用いる。
論文 参考訳(メタデータ) (2024-06-12T05:02:16Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - Synergy between 3DMM and 3D Landmarks for Accurate 3D Facial Geometry [21.051258644469268]
本研究は3次元形態素モデル(3DMM)と3次元顔のランドマークの相乗過程から学習する。
我々は、3次元アライメント、顔の向き、および3次元顔モデリングを含む、完全な3次元顔形状を予測する。
論文 参考訳(メタデータ) (2021-10-19T07:29:14Z) - Topologically Consistent Multi-View Face Inference Using Volumetric
Sampling [25.001398662643986]
ToFuは、幾何推論フレームワークで、アイデンティティと式をまたいだトポロジ的に一貫したメッシュを生成することができる。
新たなプログレッシブメッシュ生成ネットワークは、顔のトポロジ的構造を特徴量に埋め込む。
これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:55:08Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。