論文の概要: Exploring Phonetic Context in Lip Movement for Authentic Talking Face
Generation
- arxiv url: http://arxiv.org/abs/2305.19556v1
- Date: Wed, 31 May 2023 04:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:27:48.897161
- Title: Exploring Phonetic Context in Lip Movement for Authentic Talking Face
Generation
- Title(参考訳): 顔生成のための唇運動における音韻文脈の探索
- Authors: Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro
- Abstract要約: 本稿では,音声音声生成のためのコンテキスト認識型Lip-Syncフレームワーク(CALS)を提案する。
CALSは、各電話機をコンテキスト対応リップモーションユニットにマッピングし、後者をコンテキスト対応リップモーションでターゲットIDに誘導する。
LRW, LRS2, HDTFデータセットの実験から,提案したCALSが時間的コンテキストアライメントを効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 29.775211740305906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation is the task of synthesizing a natural face
synchronous to driving audio. Although much progress has been made in terms of
visual quality, lip synchronization, and facial motion of the talking face,
current works still struggle to overcome issues of crude and asynchronous lip
movement, which can result in puppetry-like animation. We identify that the
prior works commonly correlate lip movement with audio at the phone level.
However, due to co-articulation, where an isolated phone is influenced by the
preceding or following phones, the articulation of a phone varies upon the
phonetic context. Therefore, modeling lip motion with the phonetic context can
generate more spatio-temporally aligned and stable lip movement. In this
respect, we investigate the phonetic context in lip motion for authentic
talking face generation. We propose a Context-Aware Lip-Sync framework (CALS),
which leverages phonetic context to generate more spatio-temporally aligned and
stable lip movement. The CALS comprises an Audio-to-Lip module and a
Lip-to-Face module. The former explicitly maps each phone to a contextualized
lip motion unit, which guides the latter in synthesizing a target identity with
context-aware lip motion. In addition, we introduce a discriminative sync
critic that enforces accurate lip displacements within the phonetic context
through audio-visual sync loss and visual discriminative sync loss. From
extensive experiments on LRW, LRS2, and HDTF datasets, we demonstrate that the
proposed CALS effectively enhances spatio-temporal alignment, greatly improving
upon the state-of-the-art on visual quality, lip-sync quality, and realness.
Finally, we show the authenticity of the generated video through a lip
readability test and achieve 97.7% of relative word prediction accuracy to real
videos.
- Abstract(参考訳): 話し顔生成は、音声の駆動に同期する自然な顔を合成するタスクである。
顔の視覚的品質、唇の同期、顔の動きに関して多くの進歩があったが、現在の作品では、人形のようなアニメーションをもたらす粗雑で非同期な唇の動きの問題を克服することに苦戦している。
先行研究では,電話レベルでの唇運動と音声の相関が一般的であった。
しかし、孤立した電話が先行または後続の電話に影響される共音声化のため、電話の明瞭度は音韻的文脈によって異なる。
したがって、音韻文脈による唇運動のモデル化は、より時空間的に整列し、安定した唇運動を生成することができる。
そこで本研究では, 発話顔生成のための唇の動きの音韻文脈について検討する。
本研究では,音韻的文脈を利用して,時空間的に整合した安定した唇運動を生成する,文脈認識型リップシンクフレームワーク(cals)を提案する。
CALSはAudio-to-LipモジュールとLip-to-Faceモジュールとを備える。
前者は、各スマートフォンをコンテキスト化された唇の動きユニットに明示的にマッピングし、後者は、コンテキスト認識された唇の動きでターゲットのアイデンティティを合成する。
また,音声-視覚同期損失と視覚識別同期損失を通じ,音韻文脈内の正確な唇変位を強制する識別同期批判法を提案する。
LRW, LRS2, HDTFデータセットの広範な実験から、提案したCALSが時空間アライメントを効果的に向上し、視覚的品質、リップシンク品質、現実性に関する最先端技術を大幅に改善することを示した。
最後に,リップ可読性テストにより生成した映像の真正性を示し,実映像に対する相対的単語予測精度の97.7%を達成する。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。