Fugu-MT 論文翻訳(概要): Audio-driven Talking Face Generation with Stabilized Synchronization Loss

論文の概要: Audio-driven Talking Face Generation with Stabilized Synchronization Loss

arxiv url: http://arxiv.org/abs/2307.09368v3
Date: Thu, 18 Jul 2024 10:51:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-20 00:12:03.822974
Title: Audio-driven Talking Face Generation with Stabilized Synchronization Loss
Title（参考訳）: 同期損失を安定化した音声駆動型発話顔生成
Authors: Dogucan Yaman, Fevziye Irem Eyiokur, Leonard Bärmann, Hazim Kemal Ekenel, Alexander Waibel,
Abstract要約: トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
参考スコア（独自算出の注目度）: 60.01529422759644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking face generation aims to create realistic videos with accurate lip synchronization and high visual quality, using given audio and reference video while preserving identity and visual characteristics. In this paper, we start by identifying several issues with existing synchronization learning methods. These involve unstable training, lip synchronization, and visual quality issues caused by lip-sync loss, SyncNet, and lip leaking from the identity reference. To address these issues, we first tackle the lip leaking problem by introducing a silent-lip generator, which changes the lips of the identity reference to alleviate leakage. We then introduce stabilized synchronization loss and AVSyncNet to overcome problems caused by lip-sync loss and SyncNet. Experiments show that our model outperforms state-of-the-art methods in both visual quality and lip synchronization. Comprehensive ablation studies further validate our individual contributions and their cohesive effects.
Abstract（参考訳）: トーキング・フェイスジェネレーションは、身元と視覚特性を保ちながら、与えられたオーディオと参照ビデオを使用して、正確な唇同期と高画質のリアルなビデオを作成することを目的としている。本稿では,既存の同期学習手法におけるいくつかの問題を特定することから始める。これらは不安定なトレーニング、リップ同期、リップ同期損失、SyncNet、およびID参照からのリップリークによる視覚的品質の問題を含む。これらの問題に対処するため,我々はまずサイレントリップ発生器を導入し,その唇のずれを緩和する。次に、リップ同期損失とSyncNetに起因する問題を克服するために、安定化同期損失とAVSyncNetを導入する。実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。包括的アブレーション研究は、我々の個人の貢献とその結束効果をさらに検証する。

関連論文リスト

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [32.124841838431166]
リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。 KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
論文参考訳（メタデータ） (2025-05-01T12:56:17Z)
Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文参考訳（メタデータ） (2025-03-09T02:36:31Z)
Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文参考訳（メタデータ） (2024-08-10T02:46:11Z)
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文参考訳（メタデータ） (2024-08-06T16:31:45Z)
SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。 HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文参考訳（メタデータ） (2024-05-09T09:22:09Z)
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。 3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文参考訳（メタデータ） (2024-05-07T13:55:50Z)
StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文参考訳（メタデータ） (2023-05-09T13:38:13Z)
Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。従来の研究では、唇音の同期と視覚的品質が重要であった。そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-29T07:51:07Z)
Data standardization for robust lip sync [10.235718439446044]
既存のリップシンクメソッドは、野生では堅牢ではない。重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
論文参考訳（メタデータ） (2022-02-13T04:09:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。