Fugu-MT 論文翻訳(概要): StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation

論文の概要: StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation

arxiv url: http://arxiv.org/abs/2208.10922v1
Date: Tue, 23 Aug 2022 12:49:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-24 12:54:24.007086
Title: StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation
Title（参考訳）: styletalker: ワンショットスタイルベースの音声駆動音声ヘッドビデオ生成
Authors: Dongchan Min, Minyoung Song, Sung Ju Hwang
Abstract要約: StyleTalkerは音声駆動のトーキングヘッド生成モデルである。単一の参照画像から話し手の映像を合成することができる。我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
参考スコア（独自算出の注目度）: 60.3813545478593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose StyleTalker, a novel audio-driven talking head generation model that can synthesize a video of a talking person from a single reference image with accurately audio-synced lip shapes, realistic head poses, and eye blinks. Specifically, by leveraging a pretrained image generator and an image encoder, we estimate the latent codes of the talking head video that faithfully reflects the given audio. This is made possible with several newly devised components: 1) A contrastive lip-sync discriminator for accurate lip synchronization, 2) A conditional sequential variational autoencoder that learns the latent motion space disentangled from the lip movements, such that we can independently manipulate the motions and lip movements while preserving the identity. 3) An auto-regressive prior augmented with normalizing flow to learn a complex audio-to-motion multi-modal latent space. Equipped with these components, StyleTalker can generate talking head videos not only in a motion-controllable way when another motion source video is given but also in a completely audio-driven manner by inferring realistic motions from the input audio. Through extensive experiments and user studies, we show that our model is able to synthesize talking head videos with impressive perceptual quality which are accurately lip-synced with the input audios, largely outperforming state-of-the-art baselines.
Abstract（参考訳）: そこで本稿では,音声同期唇形状,リアルな頭部ポーズ,目まぶしで単一の参照画像から発話者の映像を合成する,音声駆動型音声ヘッド生成モデルであるstyletalkerを提案する。具体的には、予め訓練された画像生成器と画像エンコーダを利用して、所定の音声を忠実に反映した音声ヘッドビデオの潜時符号を推定する。これはいくつかの新しく考案されたコンポーネントで実現されている。 1)正確な口唇同期のためのコントラスト型口唇同期判別器 2) 唇運動から遠ざかる潜伏運動空間を学習する条件付き逐次変分オートエンコーダにより, 同一性を保ちながら動きや唇の動きを独立に操作することができる。 3) 正規化フローを付加した自己回帰前処理により, 複雑なマルチモーダル潜在空間を学習する。これらのコンポーネントを組み込んだStyleTalkerは、他のモーションソースビデオが提供されるときだけでなく、入力されたオーディオからリアルな動きを推測することによって、完全にオーディオ駆動の方法で音声ヘッドビデオを生成することができる。広範な実験とユーザスタディを通じて,我々は,入力音声と正確にリップ同期される印象的な知覚品質で対話型頭部映像を合成できることを実証した。

関連論文リスト

SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳（メタデータ） (2025-02-17T07:29:36Z)
PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation [17.158581488104186]
従来の音声駆動型音声ヘッド生成(THG)手法は、音声の駆動から頭部ポーズを生成する。テキストプロンプトと音声に条件付の自由なポーズで、リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである textbfPoseTalk を提案する。
論文参考訳（メタデータ） (2024-09-04T12:30:25Z)
Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文参考訳（メタデータ） (2024-08-10T02:46:11Z)
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文参考訳（メタデータ） (2024-08-06T16:31:45Z)
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文参考訳（メタデータ） (2023-09-09T14:52:39Z)
VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文参考訳（メタデータ） (2022-11-27T08:14:23Z)
One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文参考訳（メタデータ） (2021-12-06T02:53:51Z)
FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文参考訳（メタデータ） (2021-08-18T02:10:26Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文参考訳（メタデータ） (2021-01-08T18:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。