論文の概要: See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement
- arxiv url: http://arxiv.org/abs/2510.26819v1
- Date: Tue, 28 Oct 2025 09:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.848406
- Title: See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement
- Title(参考訳): 講演者:事前指導と地域調整による音声から高分解能の発話顔を作る
- Authors: Jinting Wang, Jun Wang, Hei Victor Cheng, Li Liu,
- Abstract要約: 本研究は,音声から情報を直接抽出する新しいアプローチを提案する。
特に、これは1つの音声入力からのみ高解像度で高品質な音声ビデオを生成することができる最初の方法である。
- 参考スコア(独自算出の注目度): 19.653004988642163
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unlike existing methods that rely on source images as appearance references and use source speech to generate motion, this work proposes a novel approach that directly extracts information from the speech, addressing key challenges in speech-to-talking face. Specifically, we first employ a speech-to-face portrait generation stage, utilizing a speech-conditioned diffusion model combined with statistical facial prior and a sample-adaptive weighting module to achieve high-quality portrait generation. In the subsequent speech-driven talking face generation stage, we embed expressive dynamics such as lip movement, facial expressions, and eye movements into the latent space of the diffusion model and further optimize lip synchronization using a region-enhancement module. To generate high-resolution outputs, we integrate a pre-trained Transformer-based discrete codebook with an image rendering network, enhancing video frame details in an end-to-end manner. Experimental results demonstrate that our method outperforms existing approaches on the HDTF, VoxCeleb, and AVSpeech datasets. Notably, this is the first method capable of generating high-resolution, high-quality talking face videos exclusively from a single speech input.
- Abstract(参考訳): 本研究は, 音声から情報を直接抽出し, 音声合成における重要な課題に対処する手法を提案する。
具体的には、まず、音声条件付き拡散モデルと統計的顔前処理とサンプル適応重み付けモジュールを併用して、高品質なポートレート生成を実現する。
その後の音声駆動音声生成段階において、拡散モデルの潜在空間に唇運動、表情、眼球運動などの表現力学を組み込み、さらに領域強調モジュールを用いて唇同期を最適化する。
高解像度の出力を生成するために,予め訓練されたTransformerベースの離散コードブックを画像レンダリングネットワークに統合し,映像フレームの詳細をエンドツーエンドで向上する。
実験の結果,提案手法はHDTF, VoxCeleb, AVSpeechデータセットの既存手法よりも優れていた。
特に、これは1つの音声入力からのみ高解像度で高品質な音声ビデオを生成することができる最初の方法である。
関連論文リスト
- From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech [26.67378997911053]
本研究の目的は、サイレント・トーキング・フェイス・ビデオから高品質な音声を生成することである。
本稿では,サイレントビデオと多面音声のモダリティギャップを埋める新しい音声合成システムを提案する。
提案手法は,実発話に匹敵する例外的な生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-21T09:02:38Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。