論文の概要: PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation
- arxiv url: http://arxiv.org/abs/2409.02657v1
- Date: Wed, 4 Sep 2024 12:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 18:26:46.842573
- Title: PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation
- Title(参考訳): PoseTalk:ワンショットトーキングヘッド生成のためのテキスト・アンド・オーディオによるPose制御とモーションリファインメント
- Authors: Jun Ling, Yiwen Wang, Han Xue, Rong Xie, Li Song,
- Abstract要約: 従来の音声駆動型音声ヘッド生成(THG)手法は、音声の駆動から頭部ポーズを生成する。
テキストプロンプトと音声に条件付の自由なポーズで、リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである textbfPoseTalk を提案する。
- 参考スコア(独自算出の注目度): 17.158581488104186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While previous audio-driven talking head generation (THG) methods generate head poses from driving audio, the generated poses or lips cannot match the audio well or are not editable. In this study, we propose \textbf{PoseTalk}, a THG system that can freely generate lip-synchronized talking head videos with free head poses conditioned on text prompts and audio. The core insight of our method is using head pose to connect visual, linguistic, and audio signals. First, we propose to generate poses from both audio and text prompts, where the audio offers short-term variations and rhythm correspondence of the head movements and the text prompts describe the long-term semantics of head motions. To achieve this goal, we devise a Pose Latent Diffusion (PLD) model to generate motion latent from text prompts and audio cues in a pose latent space. Second, we observe a loss-imbalance problem: the loss for the lip region contributes less than 4\% of the total reconstruction loss caused by both pose and lip, making optimization lean towards head movements rather than lip shapes. To address this issue, we propose a refinement-based learning strategy to synthesize natural talking videos using two cascaded networks, i.e., CoarseNet, and RefineNet. The CoarseNet estimates coarse motions to produce animated images in novel poses and the RefineNet focuses on learning finer lip motions by progressively estimating lip motions from low-to-high resolutions, yielding improved lip-synchronization performance. Experiments demonstrate our pose prediction strategy achieves better pose diversity and realness compared to text-only or audio-only, and our video generator model outperforms state-of-the-art methods in synthesizing talking videos with natural head motions. Project: https://junleen.github.io/projects/posetalk.
- Abstract(参考訳): 従来の音声駆動型音声ヘッドジェネレーション(THG)法は、音声の駆動からヘッドポーズを生成するが、生成されたポーズや唇はオーディオとよく一致せず、編集もできない。
本研究では,テキストのプロンプトや音声に条件付けされた自由なポーズで,リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである「textbf{PoseTalk}」を提案する。
本手法の中核となる洞察は,視覚的,言語的,音声的信号の結合にヘッドポーズを用いることである。
まず、音声とテキストのプロンプトからポーズを生成し、音声は頭部の動きの短期的変化とリズム対応を提供し、テキストプロンプトは頭部の動きの長期的意味を記述する。
この目的を達成するために、ポーズ潜在空間におけるテキストプロンプトとオーディオキューから、ポーズ潜在拡散(PLD)モデルを作成する。
第2に, 唇領域の損失はポーズと唇の両方による再建損失の4倍以下であり, 唇形状よりも頭部運動に傾いている。
この問題に対処するために,2つのケースドネットワーク,すなわちCoarseNetとRefineNetを用いて,自然な会話映像を合成する改良型学習手法を提案する。
CoarseNetは、新しいポーズでアニメーション画像を生成するための粗い動きを推定し、RefineNetは、低解像度から高解像度までの唇の動きを段階的に推定することで、より細かい唇の動きを学習することに焦点を当て、唇同期性能を改善した。
実験では,テキストのみや音声のみと比較して,ポーズ予測の手法が多様性と現実性に優れており,ビデオジェネレータモデルは自然な頭部の動きによる音声映像の合成において,最先端の手法よりも優れていた。
プロジェクト:https://junleen.github.io/projects/posetalk。
関連論文リスト
- CP-EB: Talking Face Generation with Controllable Pose and Eye Blinking
Embedding [32.006763134518245]
本稿では「CP-EB」という話し顔生成手法を提案する。
音声信号を入力として、人物像を参照として、短いビデオクリップと適切なアイリンクによって制御された頭部ポーズで映像を話している写実的な人々を合成する。
実験結果から,本手法は, 口唇運動, 自然な頭部ポーズ, まぶた眼で, 写実的な発話顔を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-11-15T03:37:41Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。