論文の概要: Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances
- arxiv url: http://arxiv.org/abs/2306.10006v3
- Date: Fri, 1 Sep 2023 18:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:33:58.146532
- Title: Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances
- Title(参考訳): 実演におけるスタイル認識型顔アニメーションの教師なし学習
- Authors: Wolfgang Paier and Anna Hilsmann and Peter Eisert
- Abstract要約: 本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。
本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。
リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
- 参考スコア(独自算出の注目度): 3.95944314850151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel approach for text/speech-driven animation of a
photo-realistic head model based on blend-shape geometry, dynamic textures, and
neural rendering. Training a VAE for geometry and texture yields a parametric
model for accurate capturing and realistic synthesis of facial expressions from
a latent feature vector. Our animation method is based on a conditional CNN
that transforms text or speech into a sequence of animation parameters. In
contrast to previous approaches, our animation model learns
disentangling/synthesizing different acting-styles in an unsupervised manner,
requiring only phonetic labels that describe the content of training sequences.
For realistic real-time rendering, we train a U-Net that refines
rasterization-based renderings by computing improved pixel colors and a
foreground matte. We compare our framework qualitatively/quantitatively against
recent methods for head modeling as well as facial animation and evaluate the
perceived rendering/animation quality in a user-study, which indicates large
improvements compared to state-of-the-art approaches
- Abstract(参考訳): 本稿では,ブレンド形状,動的テクスチャ,およびニューラルレンダリングに基づく,フォトリアリスティックヘッドモデルのテキスト/音声駆動アニメーションに対する新しいアプローチを提案する。
幾何学とテクスチャのためのVAEを訓練すると、潜在特徴ベクトルからの表情の正確なキャプチャと現実的な合成のためのパラメトリックモデルが得られる。
提案手法は,テキストや音声をアニメーションパラメータのシーケンスに変換する条件付きcnnに基づいている。
従来のアプローチとは対照的に,シミュレーションモデルでは,異なる演技スタイルを教師なしの方法で分離/合成し,訓練シーケンスの内容を記述する音素ラベルのみを必要とする。
リアルなリアルタイムレンダリングのために、改良されたピクセルカラーとフォアグラウンドマットを計算してラスタライズベースのレンダリングを洗練するu-netをトレーニングする。
我々は,最近の頭部モデリング法と顔アニメーションとを質的・定量的に比較し,ユーザスタディにおける印象的レンダリング/アニメーション品質の評価を行い,最先端のアプローチと比較して大きな改善点を示した。
関連論文リスト
- LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。
我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。
我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文 参考訳(メタデータ) (2023-08-21T17:59:10Z) - Style Transfer for 2D Talking Head Animation [11.740847190449314]
本稿では,学習可能なスタイル参照を用いた対話型ヘッドアニメーション生成手法を提案する。
本フレームワークは,1つの入力画像とオーディオストリームに基づいて,2次元音声ヘッドアニメーションを再構成することができる。
論文 参考訳(メタデータ) (2023-03-17T07:02:59Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z) - Neural Face Models for Example-Based Visual Speech Synthesis [2.2817442144155207]
マルチビュー映像に基づく顔の動きキャプチャのためのマーカーレスアプローチを提案する。
アニメーション中の表情をシームレスに表現するために,表情のニューラル表現を学習する。
論文 参考訳(メタデータ) (2020-09-22T07:35:33Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z) - A Robust Interactive Facial Animation Editing System [0.0]
直感的な制御パラメータの集合から顔のアニメーションを簡単に編集するための学習に基づく新しいアプローチを提案する。
我々は、制御パラメータを結合係数列にマップする分解能保存完全畳み込みニューラルネットワークを使用している。
提案システムは頑丈で,非専門ユーザからの粗大で誇張された編集を処理できる。
論文 参考訳(メタデータ) (2020-07-18T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。