論文の概要: 3D Facial Expressions through Analysis-by-Neural-Synthesis
- arxiv url: http://arxiv.org/abs/2404.04104v1
- Date: Fri, 5 Apr 2024 14:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:05:12.529220
- Title: 3D Facial Expressions through Analysis-by-Neural-Synthesis
- Title(参考訳): ニューラル合成による3次元顔表情解析
- Authors: George Retsinas, Panagiotis P. Filntisis, Radek Danecek, Victoria F. Abrevaya, Anastasios Roussos, Timo Bolkart, Petros Maragos,
- Abstract要約: SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
- 参考スコア(独自算出の注目度): 30.2749903946587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing methods for 3D face reconstruction from in-the-wild images excel at recovering the overall face shape, they commonly miss subtle, extreme, asymmetric, or rarely observed expressions. We improve upon these methods with SMIRK (Spatial Modeling for Image-based Reconstruction of Kinesics), which faithfully reconstructs expressive 3D faces from images. We identify two key limitations in existing methods: shortcomings in their self-supervised training formulation, and a lack of expression diversity in the training images. For training, most methods employ differentiable rendering to compare a predicted face mesh with the input image, along with a plethora of additional loss functions. This differentiable rendering loss not only has to provide supervision to optimize for 3D face geometry, camera, albedo, and lighting, which is an ill-posed optimization problem, but the domain gap between rendering and input image further hinders the learning process. Instead, SMIRK replaces the differentiable rendering with a neural rendering module that, given the rendered predicted mesh geometry, and sparsely sampled pixels of the input image, generates a face image. As the neural rendering gets color information from sampled image pixels, supervising with neural rendering-based reconstruction loss can focus solely on the geometry. Further, it enables us to generate images of the input identity with varying expressions while training. These are then utilized as input to the reconstruction model and used as supervision with ground truth geometry. This effectively augments the training data and enhances the generalization for diverse expressions. Our qualitative, quantitative and particularly our perceptual evaluations demonstrate that SMIRK achieves the new state-of-the art performance on accurate expression reconstruction. Project webpage: https://georgeretsi.github.io/smirk/.
- Abstract(参考訳): 既存の画像からの3次元顔の再構成法は全体の顔の形状を復元するのに優れているが、一般的には微妙、極端、非対称、まれに観察される表現を見逃す。
SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)を用いて,画像から表現力のある3次元顔を忠実に再構成する手法を改良する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
トレーニングでは、ほとんどのメソッドは、予測された顔メッシュと入力画像を比較するために微分レンダリングを使用し、さらに多くの損失関数を付加する。
この差別化可能なレンダリング損失は、3次元顔形状、カメラ、アルベド、照明の最適化のための監督を提供するだけでなく、レンダリングと入力画像の間の領域ギャップが学習プロセスを妨げている。
その代わり、SMIRKは異なるレンダリングをニューラルネットワークのレンダリングモジュールに置き換え、予測されたメッシュ形状と入力画像のわずかにサンプリングされたピクセルが顔画像を生成する。
ニューラルネットワークがサンプル画像画素から色情報を取得すると、ニューラルネットワークによる再構成損失の監視は、幾何学のみに焦点を合わせることができる。
さらに、トレーニング中に様々な表現で入力アイデンティティの画像を生成することができる。
これらは復元モデルへの入力として利用され、地上の真理幾何学の監督として使用される。
これにより、トレーニングデータを効果的に強化し、多様な表現の一般化を強化する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
プロジェクトWebページ: https://georgeretsi.github.io/smirk/.com
関連論文リスト
- Learning Topology Uniformed Face Mesh by Volume Rendering for Multi-view Reconstruction [40.45683488053611]
一貫性のあるトポロジにおける顔メッシュは、多くの顔関連アプリケーションの基盤となる。
トポロジを保存しながらメッシュ形状を直接最適化するメッシュボリュームレンダリング手法を提案する。
主要なイノベーションは、ボリュームレンダリングに必要な放射界をシミュレートするために、スパースメッシュ機能を周辺空間に広めることである。
論文 参考訳(メタデータ) (2024-04-08T15:25:50Z) - A Perceptual Shape Loss for Monocular 3D Face Reconstruction [13.527078921914985]
本研究では,3次元顔再構成の質を人間がどう認識するかに着想を得た,単眼顔撮影のための新しい損失関数を提案する。
我々の損失は、入力顔画像と幾何推定のシェードレンダリングを採る判別器型ニューラルネットワークとして実装されている。
我々は、新しい知覚的形状損失が、単眼の3次元顔最適化とディープニューラルネットワーク回帰の伝統的なエネルギー用語とどのように組み合わせられるかを示す。
論文 参考訳(メタデータ) (2023-10-30T14:39:11Z) - Enhancing Neural Rendering Methods with Image Augmentations [59.00067936686825]
本研究では,3次元シーンの学習型ニューラルレンダリング法(NRM)における画像拡張の利用について検討した。
トレーニング中に画像拡張を導入すると、幾何学的および測光的不整合などの課題が生じる。
本実験は,NRMの学習において,光学的品質向上や表面再構成など,拡張を取り入れることの利点を実証するものである。
論文 参考訳(メタデータ) (2023-06-15T07:18:27Z) - Refining 3D Human Texture Estimation from a Single Image [3.8761064607384195]
1枚の画像から3次元の人間のテクスチャを推定することは、グラフィックと視覚に不可欠である。
本稿では,オフセットが深層ニューラルネットワークを介して学習される変形可能な畳み込みによって,入力を適応的にサンプリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T19:53:50Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - AvatarMe++: Facial Shape and BRDF Inference with Photorealistic
Rendering-Aware GANs [119.23922747230193]
そこで本研究では,レンダリング可能な3次元顔形状とBRDFの再構成を,単一の"in-the-wild"画像から実現した最初の手法を提案する。
本手法は,1枚の低解像度画像から,高解像度の3次元顔の再構成を行う。
論文 参考訳(メタデータ) (2021-12-11T11:36:30Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z) - Inverting Generative Adversarial Renderer for Face Reconstruction [58.45125455811038]
本稿では,GAR(Generative Adversa Renderer)について紹介する。
GARは、グラフィックルールに頼るのではなく、複雑な現実世界のイメージをモデル化することを学ぶ。
本手法は,複数顔再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-06T04:16:06Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。