論文の概要: StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation
- arxiv url: http://arxiv.org/abs/2208.13717v1
- Date: Mon, 29 Aug 2022 16:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:10:04.806601
- Title: StableFace: Analyzing and Improving Motion Stability for Talking Face
Generation
- Title(参考訳): StableFace: 対話型顔生成のための動作安定性の解析と改善
- Authors: Jun Ling, Xu Tan, Liyang Chen, Runnan Li, Yuchao Zhang, Sheng Zhao, Li
Song
- Abstract要約: 入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題について検討する。
音声合成ビデオでは,いくつかの問題がジッタに繋がることが判明した。
- 参考スコア(独自算出の注目度): 38.25025849434312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While previous speech-driven talking face generation methods have made
significant progress in improving the visual quality and lip-sync quality of
the synthesized videos, they pay less attention to lip motion jitters which
greatly undermine the realness of talking face videos. What causes motion
jitters, and how to mitigate the problem? In this paper, we conduct systematic
analyses on the motion jittering problem based on a state-of-the-art pipeline
that uses 3D face representations to bridge the input audio and output video,
and improve the motion stability with a series of effective designs. We find
that several issues can lead to jitters in synthesized talking face video: 1)
jitters from the input 3D face representations; 2) training-inference mismatch;
3) lack of dependency modeling among video frames. Accordingly, we propose
three effective solutions to address this issue: 1) we propose a gaussian-based
adaptive smoothing module to smooth the 3D face representations to eliminate
jitters in the input; 2) we add augmented erosions on the input data of the
neural renderer in training to simulate the distortion in inference to reduce
mismatch; 3) we develop an audio-fused transformer generator to model
dependency among video frames. Besides, considering there is no off-the-shelf
metric for measuring motion jitters in talking face video, we devise an
objective metric (Motion Stability Index, MSI), to quantitatively measure the
motion jitters by calculating the reciprocal of variance acceleration.
Extensive experimental results show the superiority of our method on
motion-stable face video generation, with better quality than previous systems.
- Abstract(参考訳): 従来の音声による発話表情生成手法は、合成ビデオの視覚品質と口唇同期品質の改善において大きな進歩を遂げてきたが、口唇運動のジッタにはあまり注意を払わず、口唇映像の現実性を損なう。
モーションジッタの原因は何で、どのように問題を緩和するのか?
本稿では,入力音声と出力映像をブリッジする3次元顔表現を用いた最先端パイプラインに基づく動きジッタリング問題を系統的に解析し,一連の効果的な設計により動作安定性を向上する。
音声合成ビデオでは、いくつかの問題がジッタに繋がることがわかりました。
1)入力された3d顔表現からのジッタ
2) トレーニング・推論ミスマッチ
3)ビデオフレーム間の依存性モデリングの欠如。
そこで我々は,この問題に対処するための有効な解決法を3つ提案する。
1) 3次元面表現を平滑化し入力中のジッタを除去するガウス型適応平滑化モジュールを提案する。
2) ニューラル・レンダラーの入力データに対して, 推定の歪みをシミュレートしてミスマッチを低減させるトレーニングにおいて, さらなるエロージョンを付加する。
3) ビデオフレーム間の依存性をモデル化するオーディオ融合トランスジェネレータを開発した。
また, 発話映像中の運動ジッタを計測するための既定指標が存在しないことを考慮し, 分散加速度の逆数を計算し, 運動ジッタを定量的に測定するための客観的指標(運動安定指標, msi)を考案する。
広範に実験した結果,従来のシステムよりも画質が良いモーション安定顔映像生成法が優れていることがわかった。
関連論文リスト
- SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。