Fugu-MT 論文翻訳(概要): Audio-driven Talking Face Generation by Overcoming Unintended Information Flow

論文の概要: Audio-driven Talking Face Generation by Overcoming Unintended Information Flow

arxiv url: http://arxiv.org/abs/2307.09368v2
Date: Mon, 11 Dec 2023 12:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 02:12:26.730181
Title: Audio-driven Talking Face Generation by Overcoming Unintended Information Flow
Title（参考訳）: 意図しない情報フローを克服した音声対話顔生成
Authors: Dogucan Yaman and Fevziye Irem Eyiokur and Leonard B\"armann and Hazim Kemal Ekenel and Alexander Waibel
Abstract要約: 近年の音声駆動型音声合成における同期手法の問題点をいくつか挙げる。これらの問題を回避するための様々な手法を提案する。 LRS2は7つ中5つ,LRWは7つ中6つで,最先端の視覚的品質と同期性能を示す。
参考スコア（独自算出の注目度）: 61.69573572091934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-driven talking face generation is the task of creating a lip-synchronized, realistic face video from given audio and reference frames. This involves two major challenges: overall visual quality of generated images on the one hand, and audio-visual synchronization of the mouth part on the other hand. In this paper, we start by identifying several problematic aspects of synchronization methods in recent audio-driven talking face generation approaches. Specifically, this involves unintended flow of lip, pose and other information from the reference to the generated image, as well as instabilities during model training. Subsequently, we propose various techniques for obviating these issues: First, a silent-lip reference image generator prevents leaking of lips from the reference to the generated image. Second, an adaptive triplet loss handles the pose leaking problem. Finally, we propose a stabilized formulation of synchronization loss, circumventing aforementioned training instabilities while additionally further alleviating the lip leaking issue. Combining the individual improvements, we present state-of-the-art visual quality and synchronization performance on LRS2 in five out of seven and LRW in six out of seven metrics, and competitive results on the remaining ones. We further validate our design in various ablation experiments, confirming the individual contributions as well as their complementary effects.
Abstract（参考訳）: 音声駆動の会話顔生成は、特定のオーディオおよび参照フレームからリップ同期でリアルな顔ビデオを作成するタスクである。これには、生成した画像の全体的な視覚的品質と、口部の音声・視覚的同期という2つの大きな課題が含まれる。本稿では,近年の音声駆動型発話顔生成手法における同期手法の諸問題を明らかにすることから始める。具体的には、生成した画像への参照から、意図しない唇、ポーズ、その他の情報の流れ、およびモデルトレーニング中の不安定性を含む。まず、サイレントリップ参照画像生成装置は、生成された画像への参照から唇の漏れを防止する。第二に、適応三重項損失はポーズリーク問題を処理する。最後に, 安定な同期損失の定式化を提案し, 上記のトレーニング不安定を回避し, さらにリップリーク問題を緩和した。個々の改善点を合わせると、7つ中5つ、LRWを7つ中6つ、そして残りの6つに対して、最先端の視覚的品質と同期性能を示す。また, 種々のアブレーション実験において, 個々の貢献と補遺効果を確認することにより, 設計を検証した。

関連論文リスト

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。 AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文参考訳（メタデータ） (2025-05-27T17:20:38Z)
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [32.124841838431166]
リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。 KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
論文参考訳（メタデータ） (2025-05-01T12:56:17Z)
Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文参考訳（メタデータ） (2025-03-09T02:36:31Z)
Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文参考訳（メタデータ） (2024-08-10T02:46:11Z)
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文参考訳（メタデータ） (2024-08-06T16:31:45Z)
SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。 HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文参考訳（メタデータ） (2024-05-09T09:22:09Z)
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。 3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文参考訳（メタデータ） (2024-05-07T13:55:50Z)
StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文参考訳（メタデータ） (2023-05-09T13:38:13Z)
Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。従来の研究では、唇音の同期と視覚的品質が重要であった。そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-29T07:51:07Z)
Data standardization for robust lip sync [10.235718439446044]
既存のリップシンクメソッドは、野生では堅牢ではない。重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
論文参考訳（メタデータ） (2022-02-13T04:09:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。