論文の概要: Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses
- arxiv url: http://arxiv.org/abs/2007.09198v5
- Date: Thu, 8 Oct 2020 23:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:38:32.610586
- Title: Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses
- Title(参考訳): 3次元骨格規則化と表現型ボディポーザを用いた音声2ビデオ合成
- Authors: Miao Liao, Sibo Zhang, Peng Wang, Hao Zhu, Xinxin Zuo, and Ruigang
Yang
- Abstract要約: 本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
- 参考スコア(独自算出の注目度): 36.00309828380724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel approach to convert given speech audio to a
photo-realistic speaking video of a specific person, where the output video has
synchronized, realistic, and expressive rich body dynamics. We achieve this by
first generating 3D skeleton movements from the audio sequence using a
recurrent neural network (RNN), and then synthesizing the output video via a
conditional generative adversarial network (GAN). To make the skeleton movement
realistic and expressive, we embed the knowledge of an articulated 3D human
skeleton and a learned dictionary of personal speech iconic gestures into the
generation process in both learning and testing pipelines. The former prevents
the generation of unreasonable body distortion, while the later helps our model
quickly learn meaningful body movement through a few recorded videos. To
produce photo-realistic and high-resolution video with motion details, we
propose to insert part attention mechanisms in the conditional GAN, where each
detailed part, e.g. head and hand, is automatically zoomed in to have their own
discriminators. To validate our approach, we collect a dataset with 20
high-quality videos from 1 male and 1 female model reading various documents
under different topics. Compared with previous SoTA pipelines handling similar
tasks, our approach achieves better results by a user study.
- Abstract(参考訳): 本稿では,与えられた音声を特定の人物のフォトリアリスティックなスポーキングビデオに変換し,出力映像が同期し,現実的で,表現力に富んだボディダイナミックスに変換する新しい手法を提案する。
そこで我々は,まずRNN(Recurrent Neural Network)を用いて音声シーケンスから3次元骨格運動を生成し,次いで条件付き生成対向ネットワーク(GAN)を介して出力映像を合成する。
骨格運動を現実的で表現力のあるものにするために,学習パイプラインとテストパイプラインの双方において,人間の3次元骨格の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
前者は不合理な身体の歪みの発生を防ぎ、後者は我々のモデルが記録された数本のビデオを通して有意義な身体の動きを素早く学習するのに役立つ。
動きの詳細を伴う写真リアルで高解像度の映像を作成するために,各詳細部分,例えば頭と手が自動的にズームインされて,それぞれの識別装置を持つ条件付きGANに注意機構を挿入することを提案する。
提案手法を検証するために,各トピックの異なる資料を1人の男性と1人の女性モデルから20の高品質映像を収集した。
同様のタスクを処理する以前のsomaパイプラインと比較して,このアプローチはユーザスタディによってよりよい結果を得る。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using
Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文 参考訳(メタデータ) (2023-09-20T13:33:00Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文 参考訳(メタデータ) (2022-05-02T13:57:50Z) - Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。
第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。
第2段階では、投影された音声特徴から顔の動きと動きを学習する。
最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文 参考訳(メタデータ) (2021-09-22T08:47:43Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。