論文の概要: A Lip Sync Expert Is All You Need for Speech to Lip Generation In The
Wild
- arxiv url: http://arxiv.org/abs/2008.10010v1
- Date: Sun, 23 Aug 2020 11:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:52:52.957736
- Title: A Lip Sync Expert Is All You Need for Speech to Lip Generation In The
Wild
- Title(参考訳): 口唇で口唇を鳴らす「Lip Sync Expert」(動画あり)
- Authors: K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar
- Abstract要約: ターゲット音声セグメントにマッチする任意のアイデンティティの話し顔ビデオのリップ同期。
これに関連する重要な理由を同定し、強力なリップシンク識別器から学習することで解決する。
制約のないビデオのリップ同期を正確に測定するための,厳密な評価ベンチマークとメトリクスを提案する。
- 参考スコア(独自算出の注目度): 37.37319356008348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the problem of lip-syncing a talking face video
of an arbitrary identity to match a target speech segment. Current works excel
at producing accurate lip movements on a static image or videos of specific
people seen during the training phase. However, they fail to accurately morph
the lip movements of arbitrary identities in dynamic, unconstrained talking
face videos, resulting in significant parts of the video being out-of-sync with
the new audio. We identify key reasons pertaining to this and hence resolve
them by learning from a powerful lip-sync discriminator. Next, we propose new,
rigorous evaluation benchmarks and metrics to accurately measure lip
synchronization in unconstrained videos. Extensive quantitative evaluations on
our challenging benchmarks show that the lip-sync accuracy of the videos
generated by our Wav2Lip model is almost as good as real synced videos. We
provide a demo video clearly showing the substantial impact of our Wav2Lip
model and evaluation benchmarks on our website:
\url{cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip- generation-in-the-wild}.
The code and models are released at this GitHub repository:
\url{github.com/Rudrabha/Wav2Lip}. You can also try out the interactive demo at
this link: \url{bhaasha.iiit.ac.in/lipsync}.
- Abstract(参考訳): 本研究では,任意のアイデンティティの発話表情映像をリップシンクして対象音声セグメントに適合させる問題について検討する。
現在の作品は、トレーニング段階で見られる特定の人物の静的画像やビデオで正確な唇の動きを生成するのに優れている。
しかし、動的で制約のない会話の表情ビデオでは、任意のアイデンティティの唇の動きを正確に変化させることができず、その結果、ビデオのかなりの部分が新しい音声と同期していない。
我々はこれに関連する重要な理由を特定し、強力なリップシンク判別器から学習することで解決する。
次に,無拘束ビデオのリップ同期を正確に測定するための新しい厳密な評価ベンチマークと指標を提案する。
wav2lipモデルによって生成されたビデオのリップシンク精度は、実際の同期ビデオとほぼ同等であることを示している。
当社のwebサイトでは,wav2lipモデルと評価ベンチマークの影響を,明確に示すデモビデオを公開しています。
コードとモデルは、このgithubリポジトリでリリースされている。
このリンクでインタラクティブなデモを試すこともできる。 \url{bhaasha.iiit.ac.in/lipsync}。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Exposing Lip-syncing Deepfakes from Mouth Inconsistencies [29.81606633121959]
リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
本稿では,口内持続性(LIPINC)に基づくリップシンクディープフェイク検出のための新しいLIP同期検出法について述べる。
論文 参考訳(メタデータ) (2024-01-18T16:35:37Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices [4.167459103689587]
人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
論文 参考訳(メタデータ) (2022-04-05T10:02:39Z) - Visual Speech Enhancement Without A Real Visual Stream [37.88869937166955]
現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いる最近の作品は、"オーディオオンリー"な方法で発話の質を向上させます。
音声駆動唇合成における最近の進歩を利用して,音声強調のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2020-12-20T06:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。