論文の概要: High-Speed and High-Quality Text-to-Lip Generation
- arxiv url: http://arxiv.org/abs/2107.06831v1
- Date: Wed, 14 Jul 2021 16:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:11:21.079820
- Title: High-Speed and High-Quality Text-to-Lip Generation
- Title(参考訳): 高速・高品質テキスト・ライップ生成
- Authors: Jinglin Liu, Zhiying Zhu, Yi Ren and Zhou Zhao
- Abstract要約: 高速かつ高品質なテキスト-リップ生成(HH-T2L)のための新しい並列デコーディングモデルを提案する。
我々は,符号化言語特徴の持続時間を予測するとともに,符号化言語特徴に規定された対象の唇フレームを,非自己回帰的にその持続時間でモデル化する。
GRIDおよびTCD-TIMITデータセットを用いて行った実験により、HH-T2Lは、最先端のAR T2LモデルであるDualLipと比較して、競合品質の唇運動を生成することが示された。
- 参考スコア(独自算出の注目度): 55.20612501355773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a key component of talking face generation, lip movements generation
determines the naturalness and coherence of the generated talking face video.
Prior literature mainly focuses on speech-to-lip generation while there is a
paucity in text-to-lip (T2L) generation. T2L is a challenging task and existing
end-to-end works depend on the attention mechanism and autoregressive (AR)
decoding manner. However, the AR decoding manner generates current lip frame
conditioned on frames generated previously, which inherently hinders the
inference speed, and also has a detrimental effect on the quality of generated
lip frames due to error propagation. This encourages the research of parallel
T2L generation. In this work, we propose a novel parallel decoding model for
high-speed and high-quality text-to-lip generation (HH-T2L). Specifically, we
predict the duration of the encoded linguistic features and model the target
lip frames conditioned on the encoded linguistic features with their duration
in a non-autoregressive manner. Furthermore, we incorporate the structural
similarity index loss and adversarial learning to improve perceptual quality of
generated lip frames and alleviate the blurry prediction problem. Extensive
experiments conducted on GRID and TCD-TIMIT datasets show that 1) HH-T2L
generates lip movements with competitive quality compared with the
state-of-the-art AR T2L model DualLip and exceeds the baseline AR model
TransformerT2L by a notable margin benefiting from the mitigation of the error
propagation problem; and 2) exhibits distinct superiority in inference speed
(an average speedup of 19$\times$ than DualLip on TCD-TIMIT).
- Abstract(参考訳): 発話顔生成の重要な構成要素として、唇運動生成は、生成した発話顔映像の自然性とコヒーレンスを決定する。
先行文学は主に音声からリップへの生成に焦点が当てられ、一方でテキストからリップ(t2l)の生成にはpaucityがある。
T2Lは難題であり、既存のエンドツーエンドの作業は注意機構と自己回帰(AR)復号法に依存している。
しかし、ar復号方式は、予め生成されたフレームに条件付けされた現在のリップフレームを生成し、本質的に推論速度を阻害すると同時に、エラー伝搬による生成リップフレームの品質に悪影響を及ぼす。
これにより、並列T2L生成の研究が促進される。
本研究では,高速かつ高品質なテキスト-リップ生成(HH-T2L)のための並列デコーディングモデルを提案する。
具体的には,エンコードされた言語特徴の持続期間を予測し,その持続期間を非自己回帰的な方法でエンコードされた言語特徴に基づく対象唇フレームをモデル化する。
さらに,構造的類似度指標損失と逆学習を組み込んで,生成した唇フレームの知覚品質を改善し,ぼやけた予測問題を緩和する。
GRIDおよびTCD-TIMITデータセットを用いて行った実験の結果, 1) HH-T2Lは, 最先端のAR T2LモデルであるDualLipと競合する品質の唇運動を発生し, 誤差伝搬問題の緩和による顕著な差でベースラインのARモデルであるTransformerT2Lを上回り, 2) 推論速度(TCD-TIMITのDualLipの平均速度は19$\times$。
関連論文リスト
- ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。