論文の概要: Attention-based Residual Speech Portrait Model for Speech to Face
Generation
- arxiv url: http://arxiv.org/abs/2007.04536v1
- Date: Thu, 9 Jul 2020 03:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:07:54.330452
- Title: Attention-based Residual Speech Portrait Model for Speech to Face
Generation
- Title(参考訳): 注意に基づく顔生成のための残留音声画像モデル
- Authors: Jianrong Wang, Xiaosheng Hu, Li Liu, Wei Liu, Mei Yu, Tianyi Xu
- Abstract要約: 我々は,新たな注意に基づく残留音声ポートレートモデル(AR-SPM)を提案する。
提案モデルでは, トレーニングの収束を加速し, 生成した顔の質において最先端の性能を向上する。
- 参考スコア(独自算出の注目度): 14.299566923828719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a speaker's speech, it is interesting to see if it is possible to
generate this speaker's face. One main challenge in this task is to alleviate
the natural mismatch between face and speech. To this end, in this paper, we
propose a novel Attention-based Residual Speech Portrait Model (AR-SPM) by
introducing the ideal of the residual into a hybrid encoder-decoder
architecture, where face prior features are merged with the output of speech
encoder to form the final face feature. In particular, we innovatively
establish a tri-item loss function, which is a weighted linear combination of
the L2-norm, L1-norm and negative cosine loss, to train our model by comparing
the final face feature and true face feature. Evaluation on AVSpeech dataset
shows that our proposed model accelerates the convergence of training,
outperforms the state-of-the-art in terms of quality of the generated face, and
achieves superior recognition accuracy of gender and age compared with the
ground truth.
- Abstract(参考訳): 話者の話し方を考えると、この話者の顔を生成することができるかどうかが興味深い。
このタスクの主な課題は、顔と音声の自然なミスマッチを緩和することである。
そこで本研究では,残差の理想をハイブリッドエンコーダ・デコーダアーキテクチャに導入し,音声エンコーダの出力と顔前の特徴をマージして最終的な顔特徴を形成する,アテンションベースのResidual Speech Portrait Model(AR-SPM)を提案する。
特に,L2-ノルム,L1-ノルム,負コサイン損失の重み付き線形結合である三重項損失関数を革新的に確立し,最終顔特徴と真顔特徴を比較してモデルの訓練を行う。
avspeechデータセットの評価は,提案モデルがトレーニングの収束を加速し,生成した顔の質において最先端を上回り,基礎的真理と比較して性別と年齢の認識精度が優れていることを示す。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Face-StyleSpeech: Improved Face-to-Voice latent mapping for Natural
Zero-shot Speech Synthesis from a Face Image [42.23406025068276]
顔画像に条件付けされた自然な音声を生成するゼロショットテキスト音声合成モデルであるFace-StyleSpeechを提案する。
実験の結果,Face-StyleSpeechはベースラインよりも自然な音声を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-25T13:46:00Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文 参考訳(メタデータ) (2022-04-01T15:27:14Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Joint Face Image Restoration and Frontalization for Recognition [79.78729632975744]
現実世界のシナリオでは、大きなポーズ、悪い照明、低解像度、ぼやけ、ノイズなど、多くの要因が顔認識性能を損なう可能性がある。
それまでの努力は通常、まず品質の低い顔から高品質な顔に復元し、次に顔認識を行う。
与えられた低品質の顔からフロンダル化された高品質の顔を復元する多段階顔復元モデルを提案する。
論文 参考訳(メタデータ) (2021-05-12T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。