論文の概要: Neural Face Models for Example-Based Visual Speech Synthesis
- arxiv url: http://arxiv.org/abs/2009.10361v1
- Date: Tue, 22 Sep 2020 07:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:44:30.913925
- Title: Neural Face Models for Example-Based Visual Speech Synthesis
- Title(参考訳): 実例に基づく視覚音声合成のためのニューラルフェイスモデル
- Authors: Wolfgang Paier and Anna Hilsmann and Peter Eisert
- Abstract要約: マルチビュー映像に基づく顔の動きキャプチャのためのマーカーレスアプローチを提案する。
アニメーション中の表情をシームレスに表現するために,表情のニューラル表現を学習する。
- 参考スコア(独自算出の注目度): 2.2817442144155207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creating realistic animations of human faces with computer graphic models is
still a challenging task. It is often solved either with tedious manual work or
motion capture based techniques that require specialised and costly hardware.
Example based animation approaches circumvent these problems by re-using
captured data of real people. This data is split into short motion samples that
can be looped or concatenated in order to create novel motion sequences. The
obvious advantages of this approach are the simplicity of use and the high
realism, since the data exhibits only real deformations. Rather than tuning
weights of a complex face rig, the animation task is performed on a higher
level by arranging typical motion samples in a way such that the desired facial
performance is achieved. Two difficulties with example based approaches,
however, are high memory requirements as well as the creation of artefact-free
and realistic transitions between motion samples. We solve these problems by
combining the realism and simplicity of example-based animations with the
advantages of neural face models. Our neural face model is capable of
synthesising high quality 3D face geometry and texture according to a compact
latent parameter vector. This latent representation reduces memory requirements
by a factor of 100 and helps creating seamless transitions between concatenated
motion samples. In this paper, we present a marker-less approach for facial
motion capture based on multi-view video. Based on the captured data, we learn
a neural representation of facial expressions, which is used to seamlessly
concatenate facial performances during the animation procedure. We demonstrate
the effectiveness of our approach by synthesising mouthings for Swiss-German
sign language based on viseme query sequences.
- Abstract(参考訳): 人間の顔のリアルなアニメーションをコンピュータのグラフィックモデルで作ることはまだ難しい課題だ。
面倒な手作業や、特別で高価なハードウェアを必要とするモーションキャプチャーベースの技術でしばしば解決される。
例ベースのアニメーションアプローチでは、実際の人のキャプチャーデータを再利用することでこれらの問題を回避している。
このデータは短い動きのサンプルに分割され、新しい動きのシーケンスを生成するためにループや連結が可能である。
このアプローチの明らかな利点は、データの実際の変形のみを示すため、使用の単純さと高いリアリズムである。
複雑な顔リグの重みを調整するのではなく、所望の顔性能を実現するように典型的な動作サンプルを配置することで、より高いレベルでアニメーションタスクを行う。
しかし、サンプルベースアプローチの2つの困難は、高いメモリ要求と、モーションサンプル間のアーティファクトフリーおよび現実的な遷移の生成である。
これらの問題は、例ベースのアニメーションのリアリズムと単純さとニューラルフェイスモデルの利点を組み合わせることで解決する。
我々のニューラルフェイスモデルは、コンパクトな潜在パラメータベクトルに基づいて高品質な3次元顔形状とテクスチャを合成することができる。
この潜在表現は、メモリ要求を100倍削減し、連結されたモーションサンプル間のシームレスな遷移を作成するのに役立つ。
本稿では,マルチビュー映像に基づく顔の動きキャプチャのためのマーカーレスアプローチを提案する。
得られたデータに基づいて,表情のニューラル表現を学習し,アニメーション処理中に表情をシームレスに結合する。
スイス・ドイツ手話におけるビセムクエリーシーケンスに基づく口語合成によるアプローチの有効性を実証する。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances [3.95944314850151]
本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。
本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。
リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
論文 参考訳(メタデータ) (2023-06-16T17:58:04Z) - Hybrid Neural Rendering for Large-Scale Scenes with Motion Blur [68.24599239479326]
画像ベース表現とニューラル3D表現を結合して高品質なビュー一貫性のある画像をレンダリングするハイブリッドなニューラルレンダリングモデルを開発した。
我々のモデルは、新しいビュー合成のための最先端のポイントベース手法を超越している。
論文 参考訳(メタデータ) (2023-04-25T08:36:33Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。