論文の概要: StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation
- arxiv url: http://arxiv.org/abs/2208.10922v1
- Date: Tue, 23 Aug 2022 12:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:54:24.007086
- Title: StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation
- Title(参考訳): styletalker: ワンショットスタイルベースの音声駆動音声ヘッドビデオ生成
- Authors: Dongchan Min, Minyoung Song, Sung Ju Hwang
- Abstract要約: StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
- 参考スコア(独自算出の注目度): 60.3813545478593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose StyleTalker, a novel audio-driven talking head generation model
that can synthesize a video of a talking person from a single reference image
with accurately audio-synced lip shapes, realistic head poses, and eye blinks.
Specifically, by leveraging a pretrained image generator and an image encoder,
we estimate the latent codes of the talking head video that faithfully reflects
the given audio. This is made possible with several newly devised components:
1) A contrastive lip-sync discriminator for accurate lip synchronization, 2) A
conditional sequential variational autoencoder that learns the latent motion
space disentangled from the lip movements, such that we can independently
manipulate the motions and lip movements while preserving the identity. 3) An
auto-regressive prior augmented with normalizing flow to learn a complex
audio-to-motion multi-modal latent space. Equipped with these components,
StyleTalker can generate talking head videos not only in a motion-controllable
way when another motion source video is given but also in a completely
audio-driven manner by inferring realistic motions from the input audio.
Through extensive experiments and user studies, we show that our model is able
to synthesize talking head videos with impressive perceptual quality which are
accurately lip-synced with the input audios, largely outperforming
state-of-the-art baselines.
- Abstract(参考訳): そこで本稿では,音声同期唇形状,リアルな頭部ポーズ,目まぶしで単一の参照画像から発話者の映像を合成する,音声駆動型音声ヘッド生成モデルであるstyletalkerを提案する。
具体的には、予め訓練された画像生成器と画像エンコーダを利用して、所定の音声を忠実に反映した音声ヘッドビデオの潜時符号を推定する。
これはいくつかの新しく考案されたコンポーネントで実現されている。
1)正確な口唇同期のためのコントラスト型口唇同期判別器
2) 唇運動から遠ざかる潜伏運動空間を学習する条件付き逐次変分オートエンコーダにより, 同一性を保ちながら動きや唇の動きを独立に操作することができる。
3) 正規化フローを付加した自己回帰前処理により, 複雑なマルチモーダル潜在空間を学習する。
これらのコンポーネントを組み込んだStyleTalkerは、他のモーションソースビデオが提供されるときだけでなく、入力されたオーディオからリアルな動きを推測することによって、完全にオーディオ駆動の方法で音声ヘッドビデオを生成することができる。
広範な実験とユーザスタディを通じて,我々は,入力音声と正確にリップ同期される印象的な知覚品質で対話型頭部映像を合成できることを実証した。
関連論文リスト
- PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation [17.158581488104186]
従来の音声駆動型音声ヘッド生成(THG)手法は、音声の駆動から頭部ポーズを生成する。
テキストプロンプトと音声に条件付の自由なポーズで、リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである textbfPoseTalk を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:30:25Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。