論文の概要: Make Your Actor Talk: Generalizable and High-Fidelity Lip Sync with Motion and Appearance Disentanglement
- arxiv url: http://arxiv.org/abs/2406.08096v2
- Date: Mon, 17 Jun 2024 02:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:41:06.360112
- Title: Make Your Actor Talk: Generalizable and High-Fidelity Lip Sync with Motion and Appearance Disentanglement
- Title(参考訳): アクターが話す: 動きと外見が絡み合った、一般化可能で高忠実なリップシンク
- Authors: Runyi Yu, Tianyu He, Ailing Zhang, Yuchi Wang, Junliang Guo, Xu Tan, Chang Liu, Jie Chen, Jiang Bian,
- Abstract要約: 本研究の目的は,個人的アイデンティティと視覚的詳細を保ちながら,音声による唇の動きの編集を行うことである。
動きに依存しない視覚的詳細をキャプチャするために、別個のエンコーダを使用して唇、非唇の外観、動きを符号化し、学習した融合モジュールと統合する。
- 参考スコア(独自算出の注目度): 38.17828583069966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to edit the lip movements in talking video according to the given speech while preserving the personal identity and visual details. The task can be decomposed into two sub-problems: (1) speech-driven lip motion generation and (2) visual appearance synthesis. Current solutions handle the two sub-problems within a single generative model, resulting in a challenging trade-off between lip-sync quality and visual details preservation. Instead, we propose to disentangle the motion and appearance, and then generate them one by one with a speech-to-motion diffusion model and a motion-conditioned appearance generation model. However, there still remain challenges in each stage, such as motion-aware identity preservation in (1) and visual details preservation in (2). Therefore, to preserve personal identity, we adopt landmarks to represent the motion, and further employ a landmark-based identity loss. To capture motion-agnostic visual details, we use separate encoders to encode the lip, non-lip appearance and motion, and then integrate them with a learned fusion module. We train MyTalk on a large-scale and diverse dataset. Experiments show that our method generalizes well to the unknown, even out-of-domain person, in terms of both lip sync and visual detail preservation. We encourage the readers to watch the videos on our project page (https://Ingrid789.github.io/MyTalk/).
- Abstract(参考訳): 本研究の目的は,個人的アイデンティティと視覚的詳細を保ちながら,音声による唇の動きの編集を行うことである。
課題は,(1)音声による唇の動き生成と(2)視覚的外観合成の2つのサブプロブレムに分解することができる。
現在のソリューションは、単一の生成モデル内で2つのサブプロブレムを処理する。
その代わりに、動作と外観をアンタングルにし、音声間拡散モデルと動作条件付き外観生成モデルで1つずつ生成することを提案する。
しかし,(1)における動作認識のアイデンティティの保存,(2)における視覚的詳細の保存など,各段階における課題は依然として残っている。
したがって、個人的アイデンティティを維持するために、動作を表現するためにランドマークを採用し、さらにランドマークに基づくアイデンティティ損失を採用する。
動きに依存しない視覚的詳細をキャプチャするために、別個のエンコーダを使用して唇、非唇の外観、動きを符号化し、学習した融合モジュールと統合する。
大規模で多様なデータセットでMyTalkをトレーニングします。
実験により,本手法は,リップシンクと視覚的ディテールの両面から,未知のドメイン外人物によく一般化することが示された。
プロジェクトページ(https://Ingrid789.github.io/MyTalk/)でビデオを見ることを推奨しています。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - That's What I Said: Fully-Controllable Talking Face Generation [16.570649208028343]
各顔が同じ動きパターンを持つが、異なる同一性を持つ正準空間を提案する。
2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。
提案手法では, 顔の属性を完全に制御し, 正確な唇のシンクロ化を行うことができる。
論文 参考訳(メタデータ) (2023-04-06T17:56:50Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。