論文の概要: Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior
- arxiv url: http://arxiv.org/abs/2310.03363v1
- Date: Thu, 5 Oct 2023 07:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:17:02.509164
- Title: Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior
- Title(参考訳): 顔に先行した発話条件付き潜在拡散モデルによる現実的な音声対面生成
- Authors: Jinting Wang, Li Liu, Jun Wang, Hei Victor Cheng
- Abstract要約: 本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 13.198105709331617
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-to-face generation is an intriguing area of research that focuses on
generating realistic facial images based on a speaker's audio speech. However,
state-of-the-art methods employing GAN-based architectures lack stability and
cannot generate realistic face images. To fill this gap, we propose a novel
speech-to-face generation framework, which leverages a Speech-Conditioned
Latent Diffusion Model, called SCLDM. To the best of our knowledge, this is the
first work to harness the exceptional modeling capabilities of diffusion models
for speech-to-face generation. Preserving the shared identity information
between speech and face is crucial in generating realistic results. Therefore,
we employ contrastive pre-training for both the speech encoder and the face
encoder. This pre-training strategy facilitates effective alignment between the
attributes of speech, such as age and gender, and the corresponding facial
characteristics in the face images. Furthermore, we tackle the challenge posed
by excessive diversity in the synthesis process caused by the diffusion model.
To overcome this challenge, we introduce the concept of residuals by
integrating a statistical face prior to the diffusion process. This addition
helps to eliminate the shared component across the faces and enhances the
subtle variations captured by the speech condition. Extensive quantitative,
qualitative, and user study experiments demonstrate that our method can produce
more realistic face images while preserving the identity of the speaker better
than state-of-the-art methods. Highlighting the notable enhancements, our
method demonstrates significant gains in all metrics on the AVSpeech dataset
and Voxceleb dataset, particularly noteworthy are the improvements of 32.17 and
32.72 on the cosine distance metric for the two datasets, respectively.
- Abstract(参考訳): 音声対面生成は、話者の音声に基づく現実的な顔画像の生成に焦点を当てた興味深い研究分野である。
しかし、GANアーキテクチャを用いた最先端の手法は安定性に欠け、現実的な顔画像を生成することができない。
このギャップを埋めるために,scldmと呼ばれる音声条件付き潜在拡散モデルを活用した音声対面生成フレームワークを提案する。
我々の知る限り、これは音声対面生成のための拡散モデルの例外的モデリング能力を利用する最初の試みである。
現実的な結果を生成するためには,音声と顔の共有ID情報を保存することが重要である。
そこで,音声エンコーダと顔エンコーダの両方に対して,コントラストプリトレーニングを行う。
この事前学習戦略は、年齢や性別といった音声の属性と、顔画像中の対応する顔特性との効果的なアライメントを促進する。
さらに,拡散モデルによる合成過程における過剰な多様性による課題に対処する。
この課題を克服するために,拡散過程に先立って統計面を統合することにより,残差の概念を導入する。
この追加は、顔間で共有されるコンポーネントを排除し、音声条件によって捕捉される微妙な変化を強化するのに役立つ。
広汎な定量的,定性的,ユーザスタディ実験により,我々の手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示した。
AVSpeechデータセットとVoxcelebデータセットのすべての指標において,注目すべき改善点として,両データセットのコサイン距離測定における32.17と32.72の改善点を挙げる。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Expression-preserving face frontalization improves visually assisted
speech processing [35.647888055229956]
本論文の主な貢献は,非剛性顔の変形を保存したフロンダル化手法である。
深層学習パイプラインに組み込むと、音声認識と音声の不信度スコアがかなりの差で向上することを示す。
論文 参考訳(メタデータ) (2022-04-06T13:22:24Z) - Attention-based Residual Speech Portrait Model for Speech to Face
Generation [14.299566923828719]
我々は,新たな注意に基づく残留音声ポートレートモデル(AR-SPM)を提案する。
提案モデルでは, トレーニングの収束を加速し, 生成した顔の質において最先端の性能を向上する。
論文 参考訳(メタデータ) (2020-07-09T03:31:33Z) - Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging [19.285149134711382]
音声の発声特性に基づく顔画像生成は重要な課題である。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、顔の類似性を維持するのに失敗する。
本稿では,顔への音声融合(SF2F)を提案し,音声特徴領域と現代画像生成モデルとの接続性の問題に対処する。
論文 参考訳(メタデータ) (2020-06-10T15:19:31Z) - From Inference to Generation: End-to-end Fully Self-supervised
Generation of Human Face from Speech [20.41722156886205]
推論段階と生成段階を結びつけるマルチモーダル学習フレームワークを提案する。
提案手法は,GANs手法の最近の発展を生かし,音声波形から直接人間の顔を生成する。
実験の結果,提案ネットワークは人間の顔と音声の関係に合致するだけでなく,その音声に条件付けされた高品質な顔サンプルを生成することができることがわかった。
論文 参考訳(メタデータ) (2020-04-13T09:01:49Z) - Dual-Attention GAN for Large-Pose Face Frontalization [59.689836951934694]
本稿では,フォトリアリスティック顔フロンダル化のためのDA-GAN(Dual-Attention Generative Adversarial Network)を提案する。
具体的には、ローカル機能と長距離依存関係を統合するために、自己アテンションベースのジェネレータが導入された。
顔領域の局所的特徴を強調するために,新しい顔認識に基づく識別器を適用した。
論文 参考訳(メタデータ) (2020-02-17T20:00:56Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。