論文の概要: Data standardization for robust lip sync
- arxiv url: http://arxiv.org/abs/2202.06198v3
- Date: Mon, 9 Sep 2024 03:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 06:23:57.183413
- Title: Data standardization for robust lip sync
- Title(参考訳): 頑健なリップシンクのためのデータ標準化
- Authors: Chun Wang,
- Abstract要約: 既存のリップシンクメソッドは、野生では堅牢ではない。
重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。
本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
- 参考スコア(独自算出の注目度): 10.235718439446044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip sync is a fundamental audio-visual task. However, existing lip sync methods fall short of being robust in the wild. One important cause could be distracting factors on the visual input side, making extracting lip motion information difficult. To address these issues, this paper proposes a data standardization pipeline to standardize the visual input for lip sync. Based on recent advances in 3D face reconstruction, we first create a model that can consistently disentangle lip motion information from the raw images. Then, standardized images are synthesized with disentangled lip motion information, with all other attributes related to distracting factors set to predefined values independent of the input, to reduce their effects. Using synthesized images, existing lip sync methods improve their data efficiency and robustness, and they achieve competitive performance for the active speaker detection task.
- Abstract(参考訳): リップシンクは基本的なオーディオ・ビジュアルタスクである。
しかし、既存のリップシンクメソッドは、野生では堅牢ではない。
重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。
これらの問題に対処するために,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
3次元顔再構成の最近の進歩に基づき,まず,原画像から連続的に唇の動き情報を解き放つモデルを作成する。
そして、入力から独立して予め定義された値に設定された注意因子に関連するその他の属性を全て含んで、アンタングルされた唇運動情報を用いて標準化画像を生成する。
合成画像を用いることで、既存のリップシンク法はデータ効率とロバスト性を向上し、アクティブな話者検出タスクの競合性能を達成する。
関連論文リスト
- Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - Lips Are Lying: Spotting the Temporal Inconsistency between Audio and
Visual in Lip-Syncing DeepFakes [11.119780680692129]
リップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
本稿では,唇運動と音声信号の整合性を利用したリップフォージェリー識別のための新しい手法を提案する。
我々のアプローチでは、リップシンク動画の発見において平均95.3%以上の精度が得られている。
論文 参考訳(メタデータ) (2024-01-28T14:22:11Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。