論文の概要: Lip movements information disentanglement for lip sync
- arxiv url: http://arxiv.org/abs/2202.06198v1
- Date: Sun, 13 Feb 2022 04:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 10:55:29.973610
- Title: Lip movements information disentanglement for lip sync
- Title(参考訳): 唇同期のための唇運動情報絡み合い
- Authors: Chun Wang
- Abstract要約: 本稿では,パラメトリックな3次元顔モデルを用いて唇の動きを明瞭に分離する手法を提案する。
本研究では, 摂動因子の影響が, 唇運動情報と顔の合成によって緩和されると, リップシンク作業はより少ないデータでより良く行うことができることを示した。
- 参考スコア(独自算出の注目度): 4.4394493386740415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lip movements information is critical for many audio-visual tasks.
However, extracting lip movements information from videos is challenging, as it
can be easily perturbed by factors like personal identities and head poses.
This paper proposes utilizing the parametric 3D face model to disentangle lip
movements information explicitly. Building on top of the recent 3D face
reconstruction advances, we firstly offer a method that can consistently
disentangle expression information, where the lip movements information lies.
Then we demonstrate that once the influences of perturbing factors are
alleviated by synthesizing faces with the disentangled lip movements
information, the lip-sync task can be done better with much fewer data.
Finally, we show its effectiveness in the wild by testing it on an unseen
dataset for the active speaker detection task and achieving competitive
performance.
- Abstract(参考訳): 唇の動き情報は、多くの視覚的タスクに欠かせない。
しかし, 映像から唇の動き情報を抽出することは困難であり, 個人の身元や頭部のポーズなどの要因で容易に抑えられる。
本稿では, パラメトリック3次元顔モデルを用いて, 唇運動情報を明瞭に分離する手法を提案する。
まず,最近の3次元顔再構成の進歩を基盤として,唇運動情報が存在する表情情報を一貫して分離する手法を提案する。
そして,摂動要因の影響を,不連続な唇運動情報と合成することで緩和し,より少ないデータでリップシンク処理を行うことができることを示した。
最後に、アクティブな話者検出タスクのための未認識データセット上でテストし、競合性能を達成することで、その有効性を示す。
関連論文リスト
- Lips Are Lying: Spotting the Temporal Inconsistency between Audio and
Visual in Lip-Syncing DeepFakes [11.119780680692129]
リップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
本稿では,唇運動と音声信号の整合性を利用したリップフォージェリー識別のための新しい手法を提案する。
我々のアプローチでは、リップシンク動画の発見において平均95.3%以上の精度が得られている。
論文 参考訳(メタデータ) (2024-01-28T14:22:11Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio-driven Talking Face Generation by Overcoming Unintended
Information Flow [61.69573572091934]
近年の音声駆動型音声合成における同期手法の問題点をいくつか挙げる。
これらの問題を回避するための様々な手法を提案する。
LRS2は7つ中5つ,LRWは7つ中6つで,最先端の視覚的品質と同期性能を示す。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [64.14812728562596]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。