論文の概要: Audio-driven Talking Face Generation by Overcoming Unintended
Information Flow
- arxiv url: http://arxiv.org/abs/2307.09368v2
- Date: Mon, 11 Dec 2023 12:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:12:26.730181
- Title: Audio-driven Talking Face Generation by Overcoming Unintended
Information Flow
- Title(参考訳): 意図しない情報フローを克服した音声対話顔生成
- Authors: Dogucan Yaman and Fevziye Irem Eyiokur and Leonard B\"armann and Hazim
Kemal Ekenel and Alexander Waibel
- Abstract要約: 近年の音声駆動型音声合成における同期手法の問題点をいくつか挙げる。
これらの問題を回避するための様々な手法を提案する。
LRS2は7つ中5つ,LRWは7つ中6つで,最先端の視覚的品質と同期性能を示す。
- 参考スコア(独自算出の注目度): 61.69573572091934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking face generation is the task of creating a
lip-synchronized, realistic face video from given audio and reference frames.
This involves two major challenges: overall visual quality of generated images
on the one hand, and audio-visual synchronization of the mouth part on the
other hand. In this paper, we start by identifying several problematic aspects
of synchronization methods in recent audio-driven talking face generation
approaches. Specifically, this involves unintended flow of lip, pose and other
information from the reference to the generated image, as well as instabilities
during model training. Subsequently, we propose various techniques for
obviating these issues: First, a silent-lip reference image generator prevents
leaking of lips from the reference to the generated image. Second, an adaptive
triplet loss handles the pose leaking problem. Finally, we propose a stabilized
formulation of synchronization loss, circumventing aforementioned training
instabilities while additionally further alleviating the lip leaking issue.
Combining the individual improvements, we present state-of-the-art visual
quality and synchronization performance on LRS2 in five out of seven and LRW in
six out of seven metrics, and competitive results on the remaining ones. We
further validate our design in various ablation experiments, confirming the
individual contributions as well as their complementary effects.
- Abstract(参考訳): 音声駆動の会話顔生成は、特定のオーディオおよび参照フレームからリップ同期でリアルな顔ビデオを作成するタスクである。
これには、生成した画像の全体的な視覚的品質と、口部の音声・視覚的同期という2つの大きな課題が含まれる。
本稿では,近年の音声駆動型発話顔生成手法における同期手法の諸問題を明らかにすることから始める。
具体的には、生成した画像への参照から、意図しない唇、ポーズ、その他の情報の流れ、およびモデルトレーニング中の不安定性を含む。
まず、サイレントリップ参照画像生成装置は、生成された画像への参照から唇の漏れを防止する。
第二に、適応三重項損失はポーズリーク問題を処理する。
最後に, 安定な同期損失の定式化を提案し, 上記のトレーニング不安定を回避し, さらにリップリーク問題を緩和した。
個々の改善点を合わせると、7つ中5つ、LRWを7つ中6つ、そして残りの6つに対して、最先端の視覚的品質と同期性能を示す。
また, 種々のアブレーション実験において, 個々の貢献と補遺効果を確認することにより, 設計を検証した。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Data standardization for robust lip sync [10.235718439446044]
既存のリップシンクメソッドは、野生では堅牢ではない。
重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。
本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-13T04:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。