論文の概要: Exploring Phonetic Context in Lip Movement for Authentic Talking Face
Generation
- arxiv url: http://arxiv.org/abs/2305.19556v1
- Date: Wed, 31 May 2023 04:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:27:48.897161
- Title: Exploring Phonetic Context in Lip Movement for Authentic Talking Face
Generation
- Title(参考訳): 顔生成のための唇運動における音韻文脈の探索
- Authors: Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro
- Abstract要約: 本稿では,音声音声生成のためのコンテキスト認識型Lip-Syncフレームワーク(CALS)を提案する。
CALSは、各電話機をコンテキスト対応リップモーションユニットにマッピングし、後者をコンテキスト対応リップモーションでターゲットIDに誘導する。
LRW, LRS2, HDTFデータセットの実験から,提案したCALSが時間的コンテキストアライメントを効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 29.775211740305906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation is the task of synthesizing a natural face
synchronous to driving audio. Although much progress has been made in terms of
visual quality, lip synchronization, and facial motion of the talking face,
current works still struggle to overcome issues of crude and asynchronous lip
movement, which can result in puppetry-like animation. We identify that the
prior works commonly correlate lip movement with audio at the phone level.
However, due to co-articulation, where an isolated phone is influenced by the
preceding or following phones, the articulation of a phone varies upon the
phonetic context. Therefore, modeling lip motion with the phonetic context can
generate more spatio-temporally aligned and stable lip movement. In this
respect, we investigate the phonetic context in lip motion for authentic
talking face generation. We propose a Context-Aware Lip-Sync framework (CALS),
which leverages phonetic context to generate more spatio-temporally aligned and
stable lip movement. The CALS comprises an Audio-to-Lip module and a
Lip-to-Face module. The former explicitly maps each phone to a contextualized
lip motion unit, which guides the latter in synthesizing a target identity with
context-aware lip motion. In addition, we introduce a discriminative sync
critic that enforces accurate lip displacements within the phonetic context
through audio-visual sync loss and visual discriminative sync loss. From
extensive experiments on LRW, LRS2, and HDTF datasets, we demonstrate that the
proposed CALS effectively enhances spatio-temporal alignment, greatly improving
upon the state-of-the-art on visual quality, lip-sync quality, and realness.
Finally, we show the authenticity of the generated video through a lip
readability test and achieve 97.7% of relative word prediction accuracy to real
videos.
- Abstract(参考訳): 話し顔生成は、音声の駆動に同期する自然な顔を合成するタスクである。
顔の視覚的品質、唇の同期、顔の動きに関して多くの進歩があったが、現在の作品では、人形のようなアニメーションをもたらす粗雑で非同期な唇の動きの問題を克服することに苦戦している。
先行研究では,電話レベルでの唇運動と音声の相関が一般的であった。
しかし、孤立した電話が先行または後続の電話に影響される共音声化のため、電話の明瞭度は音韻的文脈によって異なる。
したがって、音韻文脈による唇運動のモデル化は、より時空間的に整列し、安定した唇運動を生成することができる。
そこで本研究では, 発話顔生成のための唇の動きの音韻文脈について検討する。
本研究では,音韻的文脈を利用して,時空間的に整合した安定した唇運動を生成する,文脈認識型リップシンクフレームワーク(cals)を提案する。
CALSはAudio-to-LipモジュールとLip-to-Faceモジュールとを備える。
前者は、各スマートフォンをコンテキスト化された唇の動きユニットに明示的にマッピングし、後者は、コンテキスト認識された唇の動きでターゲットのアイデンティティを合成する。
また,音声-視覚同期損失と視覚識別同期損失を通じ,音韻文脈内の正確な唇変位を強制する識別同期批判法を提案する。
LRW, LRS2, HDTFデータセットの広範な実験から、提案したCALSが時空間アライメントを効果的に向上し、視覚的品質、リップシンク品質、現実性に関する最先端技術を大幅に改善することを示した。
最後に,リップ可読性テストにより生成した映像の真正性を示し,実映像に対する相対的単語予測精度の97.7%を達成する。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。