論文の概要: A Novel Speech-Driven Lip-Sync Model with CNN and LSTM
- arxiv url: http://arxiv.org/abs/2205.00916v1
- Date: Mon, 2 May 2022 13:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 17:39:39.559325
- Title: A Novel Speech-Driven Lip-Sync Model with CNN and LSTM
- Title(参考訳): CNNとLSTMを用いた音声駆動リップシンクモデル
- Authors: Xiaohong Li, Xiang Wang, Kai Wang, Shiguo Lian
- Abstract要約: 可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
- 参考スコア(独自算出の注目度): 12.747541089354538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synchronized and natural lip movement with speech is one of the
most important tasks in creating realistic virtual characters. In this paper,
we present a combined deep neural network of one-dimensional convolutions and
LSTM to generate vertex displacement of a 3D template face model from
variable-length speech input. The motion of the lower part of the face, which
is represented by the vertex movement of 3D lip shapes, is consistent with the
input speech. In order to enhance the robustness of the network to different
sound signals, we adapt a trained speech recognition model to extract speech
feature, and a velocity loss term is adopted to reduce the jitter of generated
facial animation. We recorded a series of videos of a Chinese adult speaking
Mandarin and created a new speech-animation dataset to compensate the lack of
such public data. Qualitative and quantitative evaluations indicate that our
model is able to generate smooth and natural lip movements synchronized with
speech.
- Abstract(参考訳): 現実的な仮想キャラクタを作成する上では,音声と自然な唇の動きを同時に生成することが最も重要な課題である。
本稿では,一次元畳み込みとLSTMを組み合わせた深層ニューラルネットワークを用いて,可変長音声入力から3次元テンプレート顔モデルの頂点変位を生成する。
3次元唇形状の頂点運動で表される顔の下部の動きは、入力音声と一致している。
異なる音響信号に対してネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用し,音声特徴抽出を行い,速度損失項を適用し,生成した顔アニメーションのジッタを低減する。
中国人の成人が話すマンダリンの一連のビデオを撮影し、そのような公開データの欠如を補うための新しい音声アニメーションデータセットを作成した。
質的・定量的評価は,音声に同期した滑らかで自然な唇運動を生成できることを示す。
関連論文リスト
- SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。