論文の概要: Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization
- arxiv url: http://arxiv.org/abs/2308.09716v1
- Date: Fri, 18 Aug 2023 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:09:34.793787
- Title: Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization
- Title(参考訳): diff2lip:リップ同期のための音響条件拡散モデル
- Authors: Soumik Mukhopadhyay, Saksham Suri, Ravi Teja Gadde, Abhinav
Shrivastava
- Abstract要約: Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
- 参考スコア(独自算出の注目度): 38.64540967776744
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The task of lip synchronization (lip-sync) seeks to match the lips of human
faces with different audio. It has various applications in the film industry as
well as for creating virtual avatars and for video conferencing. This is a
challenging problem as one needs to simultaneously introduce detailed,
realistic lip movements while preserving the identity, pose, emotions, and
image quality. Many of the previous methods trying to solve this problem suffer
from image quality degradation due to a lack of complete contextual
information. In this paper, we present Diff2Lip, an audio-conditioned
diffusion-based model which is able to do lip synchronization in-the-wild while
preserving these qualities. We train our model on Voxceleb2, a video dataset
containing in-the-wild talking face videos. Extensive studies show that our
method outperforms popular methods like Wav2Lip and PC-AVS in Fr\'echet
inception distance (FID) metric and Mean Opinion Scores (MOS) of the users. We
show results on both reconstruction (same audio-video inputs) as well as cross
(different audio-video inputs) settings on Voxceleb2 and LRW datasets. Video
results and code can be accessed from our project page (
https://soumik-kanad.github.io/diff2lip ).
- Abstract(参考訳): 唇同期(リップシンク)の課題は、人間の顔の唇を異なる音声で一致させることである。
映画業界にも様々な応用があり、バーチャルアバターの作成やビデオ会議にも使われている。
アイデンティティ、ポーズ、感情、画質を保ちながら、詳細で現実的な唇の動きを同時に導入する必要があるため、これは難しい問題です。
この問題を解決しようとする従来の手法の多くは、文脈情報の完全な欠如による画質劣化に悩まされていた。
本稿では,これらの品質を保ちながら口唇同期が可能なオーディオコンディション拡散ベースモデルdiff2lipを提案する。
voxceleb2は、対話型ビデオを含むビデオデータセットです。
Fr'echet inception distance (FID) と Mean Opinion Scores (MOS) では,本手法がWav2Lip や PC-AVS などの一般的な手法よりも優れていた。
voxceleb2 と lrw データセットの合成(同じオーディオビデオ入力)とクロス(異なるオーディオビデオ入力)の両方の結果を示す。
ビデオの結果とコードは、プロジェクトページ(https://soumik-kanad.github.io/diff2lip )からアクセスできます。
関連論文リスト
- MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting [12.852715177163608]
MuseTalkは、変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成する。
オンラインのフェース生成をサポートする。256x256で30 FPS以上で、起動遅延は無視できる。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - One Shot Audio to Animated Video Generation [15.148595295859659]
本稿では,音声クリップと一人の未確認画像を入力として,任意の長さのアニメーション映像を生成する手法を提案する。
OneShotAu2AVは、(a)オーディオと同期している唇の動き、(b)点滅やまぶたの動きなどの自然な表情、(c)頭の動きなどのアニメーションビデオを生成することができます。
論文 参考訳(メタデータ) (2021-02-19T04:29:17Z) - A Lip Sync Expert Is All You Need for Speech to Lip Generation In The
Wild [37.37319356008348]
ターゲット音声セグメントにマッチする任意のアイデンティティの話し顔ビデオのリップ同期。
これに関連する重要な理由を同定し、強力なリップシンク識別器から学習することで解決する。
制約のないビデオのリップ同期を正確に測定するための,厳密な評価ベンチマークとメトリクスを提案する。
論文 参考訳(メタデータ) (2020-08-23T11:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。