Fugu-MT 論文翻訳(概要): Audio-Driven Talking Face Video Generation with Joint Uncertainty Learning

論文の概要: Audio-Driven Talking Face Video Generation with Joint Uncertainty Learning

arxiv url: http://arxiv.org/abs/2504.18810v1
Date: Sat, 26 Apr 2025 05:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.002424
Title: Audio-Driven Talking Face Video Generation with Joint Uncertainty Learning
Title（参考訳）: 共同不確実性学習による音声駆動型対面映像生成
Authors: Yifan Xie, Fei Ma, Yi Bin, Ying He, Fei Yu,
Abstract要約: 高品質な音声合成のための統合不確実性学習ネットワーク(JULNet)を提案する。まず、生成した画像を得た後にエラーマップと不確実性マップを個別に予測する不確実性モジュールを設計する。エラーと不確実性を共同で最適化することにより、モデルの性能と堅牢性を向上させることができる。
参考スコア（独自算出の注目度）: 11.551314848756107
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking face video generation with arbitrary speech audio is a significant challenge within the realm of digital human technology. The previous studies have emphasized the significance of audio-lip synchronization and visual quality. Currently, limited attention has been given to the learning of visual uncertainty, which creates several issues in existing systems, including inconsistent visual quality and unreliable performance across different input conditions. To address the problem, we propose a Joint Uncertainty Learning Network (JULNet) for high-quality talking face video generation, which incorporates a representation of uncertainty that is directly related to visual error. Specifically, we first design an uncertainty module to individually predict the error map and uncertainty map after obtaining the generated image. The error map represents the difference between the generated image and the ground truth image, while the uncertainty map is used to predict the probability of incorrect estimates. Furthermore, to match the uncertainty distribution with the error distribution through a KL divergence term, we introduce a histogram technique to approximate the distributions. By jointly optimizing error and uncertainty, the performance and robustness of our model can be enhanced. Extensive experiments demonstrate that our method achieves superior high-fidelity and audio-lip synchronization in talking face video generation compared to previous methods.
Abstract（参考訳）: 任意の音声による顔ビデオ生成は、デジタルヒューマンテクノロジーの領域において重要な課題である。前回の研究では、オーディオ-リップ同期と視覚的品質の重要性を強調した。現在、視覚的不確実性の学習には限定的な注意が払われており、既存のシステムでは、不整合な視覚的品質や、異なる入力条件における信頼性の低い性能など、いくつかの問題が発生している。そこで本研究では,視覚的誤りに直接関係する不確実性の表現を組み込んだ,高品質な音声音声生成のための統合不確実性学習ネットワーク(JULNet)を提案する。具体的には、まず、生成した画像を得た後にエラーマップと不確かさマップを個別に予測する不確実性モジュールを設計する。誤差マップは生成した画像と地上の真理画像との差を表すが、不確実性マップは誤推定の確率を予測するために用いられる。さらに,KL分散項による不確実性分布と誤差分布とを一致させるために,分布を近似するヒストグラム手法を導入する。エラーと不確実性を共同で最適化することにより、モデルの性能と堅牢性を向上させることができる。提案手法は,従来手法と比較して,音声合成における高忠実度および音声-リップ同期性に優れることを示した。

関連論文リスト

ViLU: Learning Vision-Language Uncertainties for Failure Prediction [28.439422629957424]
我々は、新しいビジョンランゲージ不確実性定量化フレームワークであるViLUを紹介する。 ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できる,ポストホックな設定に適している。
論文参考訳（メタデータ） (2025-07-10T10:41:13Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。 3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文参考訳（メタデータ） (2024-05-07T13:55:50Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。ここで不確実性は、困難を動的に調整するための指針となる。実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文参考訳（メタデータ） (2024-01-03T02:29:34Z)
Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文参考訳（メタデータ） (2023-10-05T07:44:49Z)
Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-18T15:50:04Z)
Combating Uncertainty and Class Imbalance in Facial Expression Recognition [4.306007841758853]
本稿では,Resnet と Attention に基づくフレームワークを提案する。本手法は,表情データセットの精度において,最も基本的な手法を超越している。
論文参考訳（メタデータ） (2022-12-15T12:09:02Z)
Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文参考訳（メタデータ） (2022-06-17T05:54:31Z)
Scene Uncertainty and the Wellington Posterior of Deterministic Image Classifiers [68.9065881270224]
Wellington Posteriorは、同じシーンで生成された可能性のあるデータに応答して得られるであろう結果の分布である。 We we explore the use of data augmentation, dropout, ensembling, single-view reconstruction and model linearization to compute a Wellington Posterior。他にも、生成逆数ネットワーク、ニューラルレイディアンスフィールド、条件付き事前ネットワークなどの条件付き生成モデルの使用がある。
論文参考訳（メタデータ） (2021-06-25T20:10:00Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)
Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文参考訳（メタデータ） (2020-11-14T17:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。