論文の概要: Talking Head Generation with Audio and Speech Related Facial Action
Units
- arxiv url: http://arxiv.org/abs/2110.09951v1
- Date: Tue, 19 Oct 2021 13:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 17:55:32.312330
- Title: Talking Head Generation with Audio and Speech Related Facial Action
Units
- Title(参考訳): 音声および音声関連顔動作ユニットを用いた発話頭部生成
- Authors: Sen Chen, Zhilei Liu, Jiaxing Liu, Zhengxiang Yan, Longbiao Wang
- Abstract要約: 音声ヘッド生成の課題は、任意の顔画像と音声クリップを入力して、唇同期音声ヘッドビデオを合成することである。
本稿では,音声および音声関連顔行動単位(AU)を駆動情報として用いた,新たな繰り返し生成ネットワークを提案する。
- 参考スコア(独自算出の注目度): 23.12239373576773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of talking head generation is to synthesize a lip synchronized
talking head video by inputting an arbitrary face image and audio clips. Most
existing methods ignore the local driving information of the mouth muscles. In
this paper, we propose a novel recurrent generative network that uses both
audio and speech-related facial action units (AUs) as the driving information.
AU information related to the mouth can guide the movement of the mouth more
accurately. Since speech is highly correlated with speech-related AUs, we
propose an Audio-to-AU module in our system to predict the speech-related AU
information from speech. In addition, we use AU classifier to ensure that the
generated images contain correct AU information. Frame discriminator is also
constructed for adversarial training to improve the realism of the generated
face. We verify the effectiveness of our model on the GRID dataset and
TCD-TIMIT dataset. We also conduct an ablation study to verify the contribution
of each component in our model. Quantitative and qualitative experiments
demonstrate that our method outperforms existing methods in both image quality
and lip-sync accuracy.
- Abstract(参考訳): 音声ヘッド生成の課題は、任意の顔画像と音声クリップを入力して、唇同期音声ヘッドビデオを合成することである。
既存のほとんどの方法は、口筋の局所的な運動情報を無視する。
本稿では,音声および音声関連顔行動単位(AU)を駆動情報として用いた,新たな繰り返し生成ネットワークを提案する。
口に関するAU情報は、口の動きをより正確に導くことができる。
音声は音声関連AUと強く相関しているため,音声関連AU情報を音声から予測するためのAUモジュールを本システムで提案する。
さらに、生成した画像が正しいAU情報を含むことを保証するために、AU分類器を使用する。
フレーム判別器は、生成した顔のリアリズムを改善するために、敵の訓練のために構築される。
GRIDデータセットとTCD-TIMITデータセットにおけるモデルの有効性を検証する。
また, モデルにおける各成分の寄与を検証するため, アブレーション研究を行った。
定量的および定性的な実験により,本手法は画像品質とリップシンク精度の両方において既存手法よりも優れていることが示された。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Talking Head Generation Driven by Speech-Related Facial Action Units and
Audio- Based on Multimodal Representation Fusion [30.549120935873407]
トーキングヘッド生成は、任意の顔画像と対応する音声クリップを入力して、リップ同期音声ヘッドビデオを合成する。
既存の方法は、相互モーダル情報の相互作用と関係を無視するだけでなく、口筋の局所的な駆動情報も無視する。
拡張された非因果的時間的畳み込み自己保持ネットワークを含む新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T08:05:24Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。