論文の概要: Talking Head Generation Driven by Speech-Related Facial Action Units and
Audio- Based on Multimodal Representation Fusion
- arxiv url: http://arxiv.org/abs/2204.12756v1
- Date: Wed, 27 Apr 2022 08:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:06:50.957627
- Title: Talking Head Generation Driven by Speech-Related Facial Action Units and
Audio- Based on Multimodal Representation Fusion
- Title(参考訳): 音声関連顔行動単位とマルチモーダル表現融合に基づく音声による音声ヘッド生成
- Authors: Sen Chen and Zhilei Liu and Jiaxing Liu and Longbiao Wang
- Abstract要約: トーキングヘッド生成は、任意の顔画像と対応する音声クリップを入力して、リップ同期音声ヘッドビデオを合成する。
既存の方法は、相互モーダル情報の相互作用と関係を無視するだけでなく、口筋の局所的な駆動情報も無視する。
拡張された非因果的時間的畳み込み自己保持ネットワークを含む新しい生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.549120935873407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head generation is to synthesize a lip-synchronized talking head
video by inputting an arbitrary face image and corresponding audio clips.
Existing methods ignore not only the interaction and relationship of
cross-modal information, but also the local driving information of the mouth
muscles. In this study, we propose a novel generative framework that contains a
dilated non-causal temporal convolutional self-attention network as a
multimodal fusion module to promote the relationship learning of cross-modal
features. In addition, our proposed method uses both audio- and speech-related
facial action units (AUs) as driving information. Speech-related AU information
can guide mouth movements more accurately. Because speech is highly correlated
with speech-related AUs, we propose an audio-to-AU module to predict
speech-related AU information. We utilize pre-trained AU classifier to ensure
that the generated images contain correct AU information. We verify the
effectiveness of the proposed model on the GRID and TCD-TIMIT datasets. An
ablation study is also conducted to verify the contribution of each component.
The results of quantitative and qualitative experiments demonstrate that our
method outperforms existing methods in terms of both image quality and lip-sync
accuracy.
- Abstract(参考訳): トークヘッド生成は、任意の顔画像と対応するオーディオクリップを入力して、口唇同期のトークヘッドビデオを合成する。
既存の方法は、相互モーダル情報の相互作用や関係だけでなく、口筋の局所的な駆動情報も無視する。
本研究では,マルチモーダル融合モジュールとして,拡張された非因果的時間的畳み込み自己保持ネットワークを含む新たな生成フレームワークを提案し,クロスモーダル特徴の関係学習を促進する。
さらに,提案手法では,音声および音声関連顔行動単位(aus)を駆動情報として用いる。
音声関連AU情報は口の動きをより正確に導くことができる。
音声は音声関連AUと強く相関しているため,音声関連AU情報を予測するためのAUモジュールを提案する。
我々は、事前訓練されたAU分類器を用いて、生成された画像が正しいAU情報を含むことを保証する。
GRIDおよびTCD-TIMITデータセットにおける提案モデルの有効性を検証する。
また,各成分の寄与を検証するため,アブレーション試験を行った。
定量的および定性的実験の結果,本手法は画像品質とリップシンク精度の両方で既存手法よりも優れていた。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Talking Head Generation with Audio and Speech Related Facial Action
Units [23.12239373576773]
音声ヘッド生成の課題は、任意の顔画像と音声クリップを入力して、唇同期音声ヘッドビデオを合成することである。
本稿では,音声および音声関連顔行動単位(AU)を駆動情報として用いた,新たな繰り返し生成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T13:14:27Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。