論文の概要: Learning Semantic Facial Descriptors for Accurate Face Animation
- arxiv url: http://arxiv.org/abs/2501.17718v1
- Date: Wed, 29 Jan 2025 15:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:55.481180
- Title: Learning Semantic Facial Descriptors for Accurate Face Animation
- Title(参考訳): 正確な顔アニメーションのための意味的顔記述子学習
- Authors: Lei Zhu, Yuanqi Chen, Xiaohang Liu, Thomas H. Li, Ge Li,
- Abstract要約: ディレンマに対処するために,学習可能な不整合ベクトル空間に意味的顔記述子を導入する。
音源と駆動面にエンコーダを用いてベースベクトル係数を求め, 同一性および動作部分空間に有効な顔記述子を導出する。
提案手法は,高忠実度同定におけるモデルベース手法の限界問題と,高精度な動き伝達におけるモデルフリー手法が直面する課題に対処する。
- 参考スコア(独自算出の注目度): 43.370084532812044
- License:
- Abstract: Face animation is a challenging task. Existing model-based methods (utilizing 3DMMs or landmarks) often result in a model-like reconstruction effect, which doesn't effectively preserve identity. Conversely, model-free approaches face challenges in attaining a decoupled and semantically rich feature space, thereby making accurate motion transfer difficult to achieve. We introduce the semantic facial descriptors in learnable disentangled vector space to address the dilemma. The approach involves decoupling the facial space into identity and motion subspaces while endowing each of them with semantics by learning complete orthogonal basis vectors. We obtain basis vector coefficients by employing an encoder on the source and driving faces, leading to effective facial descriptors in the identity and motion subspaces. Ultimately, these descriptors can be recombined as latent codes to animate faces. Our approach successfully addresses the issue of model-based methods' limitations in high-fidelity identity and the challenges faced by model-free methods in accurate motion transfer. Extensive experiments are conducted on three challenging benchmarks (i.e. VoxCeleb, HDTF, CelebV). Comprehensive quantitative and qualitative results demonstrate that our model outperforms SOTA methods with superior identity preservation and motion transfer.
- Abstract(参考訳): 顔のアニメーションは難しい作業だ。
既存のモデルベースのメソッド(3DMMやランドマークを利用する)は、しばしばモデルのような再構築効果をもたらします。
逆に、モデルフリーアプローチは、疎結合で意味的にリッチな特徴空間を達成する上で困難に直面し、正確な動き伝達を困難にしている。
ディレンマに対処するために,学習可能な不整合ベクトル空間に意味的顔記述子を導入する。
このアプローチでは、顔空間をアイデンティティと動きの部分空間に分離し、それぞれに完全な直交基底ベクトルを学習することで意味論を与える。
音源と駆動面にエンコーダを用いてベースベクトル係数を求め, 同一性および動作部分空間に有効な顔記述子を導出する。
最終的に、これらのディスクリプタは、顔をアニメーションするために潜在コードとして再結合することができる。
提案手法は,高忠実度同定におけるモデルベース手法の限界問題と,高精度な動き伝達におけるモデルフリー手法が直面する課題に対処する。
大規模な実験は3つの挑戦的なベンチマーク(VoxCeleb、HDTF、CelebV)で実施される。
総合的な定量的および定性的な結果から,本モデルがSOTA法より優れた個人性保存と移動移動を達成できることが示唆された。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - ScanTalk: 3D Talking Heads from Unregistered Scans [13.003073077799835]
スキャンデータを含む任意のトポロジで3次元顔をアニメーションできる新しいフレームワークである textbfScanTalk を提案する。
我々のアプローチは、固定トポロジ制約を克服するためにDiffusionNetアーキテクチャに依存しており、より柔軟でリアルな3Dアニメーションのための有望な道を提供する。
論文 参考訳(メタデータ) (2024-03-16T14:58:58Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - ImFace++: A Sophisticated Nonlinear 3D Morphable Face Model with Implicit Neural Representations [25.016000421755162]
本稿では,暗黙のニューラル表現を持つ高度で連続的な空間を学習するために,ImFace++という新しい3次元顔モデルを提案する。
ImFace++は、まず2つの明示的に歪んだ変形フィールドを構築し、アイデンティティと式に関連する複雑な形状をモデル化する。
さらにテンプレート空間内の精細化変位場が組み込まれ、個々の顔の詳細をきめ細かな学習が可能となる。
論文 参考訳(メタデータ) (2023-12-07T03:53:53Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Neural Face Models for Example-Based Visual Speech Synthesis [2.2817442144155207]
マルチビュー映像に基づく顔の動きキャプチャのためのマーカーレスアプローチを提案する。
アニメーション中の表情をシームレスに表現するために,表情のニューラル表現を学習する。
論文 参考訳(メタデータ) (2020-09-22T07:35:33Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。