論文の概要: Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation
- arxiv url: http://arxiv.org/abs/2305.19556v3
- Date: Mon, 1 Apr 2024 04:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:41:51.146096
- Title: Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation
- Title(参考訳): 顔生成のための音声文脈対応リップシンクの探索
- Authors: Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro,
- Abstract要約: コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
- 参考スコア(独自算出の注目度): 58.72068260933836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation is the challenging task of synthesizing a natural and realistic face that requires accurate synchronization with a given audio. Due to co-articulation, where an isolated phone is influenced by the preceding or following phones, the articulation of a phone varies upon the phonetic context. Therefore, modeling lip motion with the phonetic context can generate more spatio-temporally aligned lip movement. In this respect, we investigate the phonetic context in generating lip motion for talking face generation. We propose Context-Aware Lip-Sync framework (CALS), which explicitly leverages phonetic context to generate lip movement of the target face. CALS is comprised of an Audio-to-Lip module and a Lip-to-Face module. The former is pretrained based on masked learning to map each phone to a contextualized lip motion unit. The contextualized lip motion unit then guides the latter in synthesizing a target identity with context-aware lip motion. From extensive experiments, we verify that simply exploiting the phonetic context in the proposed CALS framework effectively enhances spatio-temporal alignment. We also demonstrate the extent to which the phonetic context assists in lip synchronization and find the effective window size for lip generation to be approximately 1.2 seconds.
- Abstract(参考訳): 音声と正確な同期を必要とする自然でリアルな顔を合成する上で、会話による顔生成は難しい課題である。
単独の電話機が先行または後続の電話機に影響されるような共調により、電話機の調音は音韻の文脈によって異なる。
したがって、音韻文脈による唇の動きをモデル化することで、時空間的な唇の動きをより高めることができる。
そこで本研究では,話し顔生成のための唇の動き生成における音韻文脈について検討する。
対象の顔の唇の動きを生成するために音声コンテキストを明示的に活用する文脈認識型リップシンクフレームワーク(CALS)を提案する。
CALSはAudio-to-LipモジュールとLip-to-Faceモジュールで構成されている。
前者はマスク学習に基づいて事前訓練され、各携帯電話を文脈化された唇運動ユニットにマッピングする。
そして、コンテキスト対応リップモーションユニットは、ターゲットIDとコンテキスト対応リップモーションとを合成する際に後者を誘導する。
広汎な実験から,提案したCALSフレームワークにおける音韻文脈を単純に活用するだけで,時空間アライメントが効果的に向上することを確認した。
また, 音韻文脈が唇の同期にどの程度役立つかを示すとともに, 約1.2秒間の唇生成に有効な窓の大きさを求める。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。