論文の概要: Lip movements information disentanglement for lip sync
- arxiv url: http://arxiv.org/abs/2202.06198v1
- Date: Sun, 13 Feb 2022 04:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 10:55:29.973610
- Title: Lip movements information disentanglement for lip sync
- Title(参考訳): 唇同期のための唇運動情報絡み合い
- Authors: Chun Wang
- Abstract要約: 本稿では,パラメトリックな3次元顔モデルを用いて唇の動きを明瞭に分離する手法を提案する。
本研究では, 摂動因子の影響が, 唇運動情報と顔の合成によって緩和されると, リップシンク作業はより少ないデータでより良く行うことができることを示した。
- 参考スコア(独自算出の注目度): 4.4394493386740415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lip movements information is critical for many audio-visual tasks.
However, extracting lip movements information from videos is challenging, as it
can be easily perturbed by factors like personal identities and head poses.
This paper proposes utilizing the parametric 3D face model to disentangle lip
movements information explicitly. Building on top of the recent 3D face
reconstruction advances, we firstly offer a method that can consistently
disentangle expression information, where the lip movements information lies.
Then we demonstrate that once the influences of perturbing factors are
alleviated by synthesizing faces with the disentangled lip movements
information, the lip-sync task can be done better with much fewer data.
Finally, we show its effectiveness in the wild by testing it on an unseen
dataset for the active speaker detection task and achieving competitive
performance.
- Abstract(参考訳): 唇の動き情報は、多くの視覚的タスクに欠かせない。
しかし, 映像から唇の動き情報を抽出することは困難であり, 個人の身元や頭部のポーズなどの要因で容易に抑えられる。
本稿では, パラメトリック3次元顔モデルを用いて, 唇運動情報を明瞭に分離する手法を提案する。
まず,最近の3次元顔再構成の進歩を基盤として,唇運動情報が存在する表情情報を一貫して分離する手法を提案する。
そして,摂動要因の影響を,不連続な唇運動情報と合成することで緩和し,より少ないデータでリップシンク処理を行うことができることを示した。
最後に、アクティブな話者検出タスクのための未認識データセット上でテストし、競合性能を達成することで、その有効性を示す。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文 参考訳(メタデータ) (2024-05-23T15:42:34Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。