論文の概要: LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild
- arxiv url: http://arxiv.org/abs/2602.00189v1
- Date: Fri, 30 Jan 2026 08:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.042352
- Title: LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild
- Title(参考訳): LPIPS-AttnWav2Lip:野生におけるトーキングヘッド生成のためのジェネリックオーディオ駆動リップ同期
- Authors: Zhipeng Chen, Xinheng Wang, Lun Xie, Haijie Yuan, Hang Pan,
- Abstract要約: 本稿では,音声に基づく任意の話者の顔画像再構成のための汎用手法LPIPS-AttnWav2Lipを提案する。
提案手法は, リップ同期精度と視覚的品質の観点から, 優れた性能を実現する。
- 参考スコア(独自算出の注目度): 9.682333912273906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have shown a growing interest in Audio-driven Talking Head Generation. The primary challenge in talking head generation is achieving audio-visual coherence between the lips and the audio, known as lip synchronization. This paper proposes a generic method, LPIPS-AttnWav2Lip, for reconstructing face images of any speaker based on audio. We used the U-Net architecture based on residual CBAM to better encode and fuse audio and visual modal information. Additionally, the semantic alignment module extends the receptive field of the generator network to obtain the spatial and channel information of the visual features efficiently; and match statistical information of visual features with audio latent vector to achieve the adjustment and injection of the audio content information to the visual information. To achieve exact lip synchronization and to generate realistic high-quality images, our approach adopts LPIPS Loss, which simulates human judgment of image quality and reduces instability possibility during the training process. The proposed method achieves outstanding performance in terms of lip synchronization accuracy and visual quality as demonstrated by subjective and objective evaluation results. The code for the paper is available at the following link: https://github.com/FelixChan9527/LPIPS-AttnWav2Lip
- Abstract(参考訳): 研究者たちは、オーディオ駆動のトーキングヘッドジェネレーションへの関心が高まっている。
音声ヘッドジェネレーションの最大の課題は、唇と唇の同期として知られる音声間の音声と視覚のコヒーレンスを達成することである。
本稿では,音声に基づく任意の話者の顔画像再構成のための汎用手法LPIPS-AttnWav2Lipを提案する。
残差CBAMに基づくU-Netアーキテクチャを用いて、音声と視覚のモーダル情報をエンコードし、融合した。
さらに、セマンティックアライメントモジュールは、ジェネレータネットワークの受容領域を拡張して、視覚特徴の空間的及びチャネル的情報を効率よく取得し、視覚特徴の統計情報を音声潜在ベクトルとマッチングして、音声コンテンツ情報の視覚情報への調整及び注入を実現する。
そこで本研究では, 画像品質の人間の判断をシミュレートし, トレーニング過程における不安定性の低減を図るLPIPS Lossを用いて, 正確な唇同期を実現し, 現実的な高品質な画像を生成する。
提案手法は, 主観的, 客観的評価結果から, リップ同期精度と視覚的品質の点で優れた性能を示す。
https://github.com/FelixChan9527/LPIPS-AttnWav2Lip
関連論文リスト
- Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework [56.30142869506262]
塗り絵ベースの話し顔生成は、唇の動きだけを変更しながらポーズ、照明、ジェスチャーなどの映像の詳細を保存することを目的としている。
この機構は、生成した唇が、駆動オーディオのみの影響ではなく、参照画像の影響を受けるリップリークを導入することができる。
そこで本研究では,唇の漏れを分析し定量化するためのシステム評価手法を提案する。
論文 参考訳(メタデータ) (2025-11-05T17:11:53Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。