論文の概要: FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model
- arxiv url: http://arxiv.org/abs/2409.13180v2
- Date: Wed, 9 Oct 2024 02:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:29:51.845450
- Title: FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model
- Title(参考訳): FreeAvatar:表現基礎モデル学習によるロバストな3次元顔アニメーション転送
- Authors: Feng Qiu, Wei Zhang, Chen Liu, Rudong An, Lincheng Li, Yu Ding, Changjie Fan, Zhipeng Hu, Xin Yu,
- Abstract要約: ビデオ駆動の3D顔アニメーション転送は、アクターの表情を再現するためにアバターを駆動することを目的としている。
我々は,学習した表現のみに依存する,堅牢な顔アニメーショントランスファー手法であるFreeAvatarを提案する。
- 参考スコア(独自算出の注目度): 45.0201701977516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-driven 3D facial animation transfer aims to drive avatars to reproduce the expressions of actors. Existing methods have achieved remarkable results by constraining both geometric and perceptual consistency. However, geometric constraints (like those designed on facial landmarks) are insufficient to capture subtle emotions, while expression features trained on classification tasks lack fine granularity for complex emotions. To address this, we propose \textbf{FreeAvatar}, a robust facial animation transfer method that relies solely on our learned expression representation. Specifically, FreeAvatar consists of two main components: the expression foundation model and the facial animation transfer model. In the first component, we initially construct a facial feature space through a face reconstruction task and then optimize the expression feature space by exploring the similarities among different expressions. Benefiting from training on the amounts of unlabeled facial images and re-collected expression comparison dataset, our model adapts freely and effectively to any in-the-wild input facial images. In the facial animation transfer component, we propose a novel Expression-driven Multi-avatar Animator, which first maps expressive semantics to the facial control parameters of 3D avatars and then imposes perceptual constraints between the input and output images to maintain expression consistency. To make the entire process differentiable, we employ a trained neural renderer to translate rig parameters into corresponding images. Furthermore, unlike previous methods that require separate decoders for each avatar, we propose a dynamic identity injection module that allows for the joint training of multiple avatars within a single network.
- Abstract(参考訳): ビデオ駆動の3D顔アニメーション転送は、アクターの表情を再現するためにアバターを駆動することを目的としている。
既存の手法は、幾何学的および知覚的整合性の両方を制約することで、顕著な結果を得た。
しかし、幾何学的制約(顔のランドマークにデザインされているものなど)は微妙な感情を捉えるには不十分であるが、分類タスクで訓練された表現機能は複雑な感情に対して細かい粒度を欠いている。
そこで本研究では,学習した表現表現にのみ依存する,堅牢な顔アニメーショントランスファー手法である「textbf{FreeAvatar}」を提案する。
具体的には、FreeAvatarは式基礎モデルと顔アニメーション転送モデルという2つの主要コンポーネントから構成される。
最初のコンポーネントでは、まず顔再構成タスクを通して顔の特徴空間を構築し、その後、異なる表現間の類似性を探索して表現特徴空間を最適化する。
未ラベルの顔画像の量と再コンパイルされた表情比較データセットのトレーニングにより、我々のモデルは、どの入力された顔画像にも、自由に効果的に適応できる。
本稿では,3次元アバターの表情制御パラメータに表現意味をマッピングし,入力画像と出力画像の間に知覚的制約を課し,表現一貫性を維持する新しい表現駆動型マルチアバターアニメーションを提案する。
プロセス全体を識別可能にするために、トレーニング済みのニューラルレンダラーを使用して、rigパラメータを対応するイメージに変換する。
さらに,各アバターごとに分離したデコーダを必要とする従来の方法とは異なり,複数のアバターを1つのネットワーク内で共同でトレーニングできる動的アイデンティティインジェクションモジュールを提案する。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Attention-Based VR Facial Animation with Visual Mouth Camera Guidance
for Immersive Telepresence Avatars [19.70403947793871]
本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。
提案手法は,未知の演算子に一般化され,短いビデオ2本をキャプチャして簡単なエンロラメントステップのみを必要とする。
我々は、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。
論文 参考訳(メタデータ) (2023-12-15T12:45:11Z) - GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - Facial Expression Re-targeting from a Single Character [0.0]
3Dキャラクタの表情を表現するための標準的な方法は、ブレンドシャッフルである。
私たちは、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結合する独自のディープラーニングアーキテクチャを開発しました。
我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。
論文 参考訳(メタデータ) (2023-06-21T11:35:22Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - I M Avatar: Implicit Morphable Head Avatars from Videos [68.13409777995392]
モノクロビデオから暗黙の頭部アバターを学習するための新しい手法であるIMavatarを提案する。
従来の3DMMによるきめ細かい制御機構に着想を得て, 学習用ブレンドサップとスキンフィールドによる表現・ポーズ関連変形を表現した。
本手法は,最先端の手法と比較して,幾何性を改善し,より完全な表現空間をカバーできることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2021-12-14T15:30:32Z) - Learning an Animatable Detailed 3D Face Model from In-The-Wild Images [50.09971525995828]
本研究では, 実物的詳細と実物的画像から3次元顔レグレッサーを共同学習する第1の手法を提案する。
DECAモデルは、低次元の潜時表現からUV変位マップを堅牢に生成するように訓練されています。
本稿では,人固有の細部と表情依存のしわを区別する新しい細部一貫性損失を提案する。
論文 参考訳(メタデータ) (2020-12-07T19:30:45Z) - Facial Expression Retargeting from Human to Avatar Made Easy [34.86394328702422]
人間から仮想キャラクタへの顔表現は、コンピュータグラフィックスやアニメーションにおいて有用な技術である。
伝統的な方法では、マーカーやブレンドサップを使って人間とアバターの顔をマッピングする。
本稿では,この非線型表現埋め込みと表現領域変換によるクロスドメイン表現伝達問題に対する新しい解を提案する。
論文 参考訳(メタデータ) (2020-08-12T04:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。