論文の概要: Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert
- arxiv url: http://arxiv.org/abs/2303.17480v1
- Date: Wed, 29 Mar 2023 07:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:02:37.628680
- Title: Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert
- Title(参考訳): あなたが言ったこと:唇読みの専門家が指導した顔生成について語る
- Authors: Jiadong Wang, Xinyuan Qian, Malu Zhang, Robby T. Tan, Haizhou Li
- Abstract要約: 音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
- 参考スコア(独自算出の注目度): 89.07178484337865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation, also known as speech-to-lip generation, reconstructs
facial motions concerning lips given coherent speech input. The previous
studies revealed the importance of lip-speech synchronization and visual
quality. Despite much progress, they hardly focus on the content of lip
movements i.e., the visual intelligibility of the spoken words, which is an
important aspect of generation quality. To address the problem, we propose
using a lip-reading expert to improve the intelligibility of the generated lip
regions by penalizing the incorrect generation results. Moreover, to compensate
for data scarcity, we train the lip-reading expert in an audio-visual
self-supervised manner. With a lip-reading expert, we propose a novel
contrastive learning to enhance lip-speech synchronization, and a transformer
to encode audio synchronically with video, while considering global temporal
dependency of audio. For evaluation, we propose a new strategy with two
different lip-reading experts to measure intelligibility of the generated
videos. Rigorous experiments show that our proposal is superior to other
State-of-the-art (SOTA) methods, such as Wav2Lip, in reading intelligibility
i.e., over 38% Word Error Rate (WER) on LRS2 dataset and 27.8% accuracy on LRW
dataset. We also achieve the SOTA performance in lip-speech synchronization and
comparable performances in visual quality.
- Abstract(参考訳): トーキング・フェイス・ジェネレーション(talking face generation)は、音声入力のコヒーレントな唇に関する顔の動きを再構築する。
前報では唇音の同期と視覚的品質が重要であった。
多くの進歩にもかかわらず、彼らは唇の動きの内容、すなわち、生成品質の重要な側面である話し言葉の視覚的不明瞭さにほとんど焦点を合わせない。
そこで本研究では, 唇読解の専門家を用いて, 不正確な生成結果をペナルティ化し, 生成した唇領域の知性を向上させることを提案する。
また,データの不足を補うために,唇読取の専門家を視聴覚自己監視的に訓練する。
本稿では,唇読解の専門家とともに,音声の時間的依存を考慮しつつ,音声をビデオと同期的に符号化するトランスフォーマーを提案する。
評価のために,2つの異なる口唇読取の専門家による,生成した映像の明瞭度測定のための新しい戦略を提案する。
厳密な実験により,LRS2データセットでは38%以上のワード誤り率(WER),LRWデータセットでは27.8%の精度で,Wav2Lipのような他の最先端(SOTA)手法よりも優れた結果が得られた。
また,Lip-Speech同期におけるSOTA性能と,視覚的品質における同等の性能も達成する。
関連論文リスト
- Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Audio-driven Talking Face Generation by Overcoming Unintended
Information Flow [61.69573572091934]
近年の音声駆動型音声合成における同期手法の問題点をいくつか挙げる。
これらの問題を回避するための様々な手法を提案する。
LRS2は7つ中5つ,LRWは7つ中6つで,最先端の視覚的品質と同期性能を示す。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [64.14812728562596]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。