論文の概要: Plug the Leaks: Advancing Audio-driven Talking Face Generation by
Preventing Unintended Information Flow
- arxiv url: http://arxiv.org/abs/2307.09368v1
- Date: Tue, 18 Jul 2023 15:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 13:55:25.173624
- Title: Plug the Leaks: Advancing Audio-driven Talking Face Generation by
Preventing Unintended Information Flow
- Title(参考訳): Plug the Leaks:意図しない情報フローの防止による音声駆動型発話顔生成の促進
- Authors: Dogucan Yaman and Fevziye Irem Eyiokur and Leonard B\"armann and Hazim
Kemal Ekenel and Alexander Waibel
- Abstract要約: LRS2 と LRW の同期性能と視覚的品質を両立させる。
サイレントリップ基準画像生成装置は、生成された画像を参照して唇の漏れを防止する。
適応三重項損失は、ポーズリーク問題を処理する。
- 参考スコア(独自算出の注目度): 65.97860432430782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking face generation is the task of creating a
lip-synchronized, realistic face video from given audio and reference frames.
This involves two major challenges: overall visual quality of generated images
on the one hand, and audio-visual synchronization of the mouth part on the
other hand. In this paper, we start by identifying several problematic aspects
of synchronization methods in recent audio-driven talking face generation
approaches. Specifically, this involves unintended flow of lip and pose
information from the reference to the generated image, as well as instabilities
during model training. Subsequently, we propose various techniques for
obviating these issues: First, a silent-lip reference image generator prevents
leaking of lips from the reference to the generated image. Second, an adaptive
triplet loss handles the pose leaking problem. Finally, we propose a stabilized
formulation of synchronization loss, circumventing aforementioned training
instabilities while additionally further alleviating the lip leaking issue.
Combining the individual improvements, we present state-of-the art performance
on LRS2 and LRW in both synchronization and visual quality. We further validate
our design in various ablation experiments, confirming the individual
contributions as well as their complementary effects.
- Abstract(参考訳): 音声駆動の会話顔生成は、特定のオーディオおよび参照フレームからリップ同期でリアルな顔ビデオを作成するタスクである。
これには、生成した画像の全体的な視覚的品質と、口部の音声・視覚的同期という2つの大きな課題が含まれる。
本稿では,近年の音声駆動型発話顔生成手法における同期手法の諸問題を明らかにすることから始める。
特に、これは意図しない唇の流れと、生成された画像を参照した情報、およびモデルトレーニング中の不安定性を含む。
まず、サイレントリップ参照画像生成装置は、生成された画像への参照から唇の漏れを防止する。
第二に、適応三重項損失はポーズリーク問題を処理する。
最後に, 安定な同期損失の定式化を提案し, 上記のトレーニング不安定を回避し, さらにリップリーク問題を緩和した。
それぞれの改良点を組み合わせることで,LRS2とLRWの同期性能と視覚的品質を両立させる。
また, 種々のアブレーション実験において, 個々の貢献と補遺効果を確認することにより, 設計を検証した。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Data standardization for robust lip sync [10.235718439446044]
既存のリップシンクメソッドは、野生では堅牢ではない。
重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。
本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-13T04:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。