論文の概要: Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation
- arxiv url: http://arxiv.org/abs/2305.19556v2
- Date: Tue, 16 Jan 2024 03:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:46:36.371367
- Title: Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation
- Title(参考訳): 顔生成のための音声文脈対応リップシンクの探索
- Authors: Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro
- Abstract要約: コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
- 参考スコア(独自算出の注目度): 64.14812728562596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation is the challenging task of synthesizing a natural and
realistic face that requires accurate synchronization with a given audio. Due
to co-articulation, where an isolated phone is influenced by the preceding or
following phones, the articulation of a phone varies upon the phonetic context.
Therefore, modeling lip motion with the phonetic context can generate more
spatio-temporally aligned lip movement. In this respect, we investigate the
phonetic context in generating lip motion for talking face generation. We
propose Context-Aware Lip-Sync framework (CALS), which explicitly leverages
phonetic context to generate lip movement of the target face. CALS is comprised
of an Audio-to-Lip module and a Lip-to-Face module. The former is pretrained
based on masked learning to map each phone to a contextualized lip motion unit.
The contextualized lip motion unit then guides the latter in synthesizing a
target identity with context-aware lip motion. From extensive experiments, we
verify that simply exploiting the phonetic context in the proposed CALS
framework effectively enhances spatio-temporal alignment. We also demonstrate
the extent to which the phonetic context assists in lip synchronization and
find the effective window size for lip generation to be approximately 1.2
seconds.
- Abstract(参考訳): 音声と正確な同期を必要とする自然でリアルな顔を合成する上で、顔生成は難しい課題である。
孤立した電話が先行または後続の電話に影響される共音声化のため、電話の明瞭度は音韻的文脈によって異なる。
したがって、音韻文脈による唇の動きをモデル化することで、時空間的な唇の動きをより高めることができる。
そこで本研究では,話し顔生成のための唇の動き生成における音韻文脈について検討する。
対象の顔の唇の動きを生成するために音声コンテキストを明示的に活用する文脈対応リップシンクフレームワーク(CALS)を提案する。
CALSはAudio-to-LipモジュールとLip-to-Faceモジュールで構成されている。
前者はマスク学習に基づいて事前学習され、各携帯電話をコンテキスト化された唇運動ユニットにマップする。
次に、コンテキスト化された唇の動きユニットは、コンテキスト認識された唇の動きでターゲットのアイデンティティを合成して、後者を導く。
広範な実験から,提案するcalsフレームワークにおける音韻文脈の活用が,時空間的アライメントを効果的に向上することを確認した。
また,音声的文脈がリップ同期を補助する程度を示し,リップ生成の有効なウィンドウサイズは約1.2秒であることを示す。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。