Fugu-MT 論文翻訳(概要): Lip movements information disentanglement for lip sync

論文の概要: Lip movements information disentanglement for lip sync

arxiv url: http://arxiv.org/abs/2202.06198v1
Date: Sun, 13 Feb 2022 04:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-16 10:55:29.973610
Title: Lip movements information disentanglement for lip sync
Title（参考訳）: 唇同期のための唇運動情報絡み合い
Authors: Chun Wang
Abstract要約: 本稿では,パラメトリックな3次元顔モデルを用いて唇の動きを明瞭に分離する手法を提案する。本研究では, 摂動因子の影響が, 唇運動情報と顔の合成によって緩和されると, リップシンク作業はより少ないデータでより良く行うことができることを示した。
参考スコア（独自算出の注目度）: 4.4394493386740415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lip movements information is critical for many audio-visual tasks. However, extracting lip movements information from videos is challenging, as it can be easily perturbed by factors like personal identities and head poses. This paper proposes utilizing the parametric 3D face model to disentangle lip movements information explicitly. Building on top of the recent 3D face reconstruction advances, we firstly offer a method that can consistently disentangle expression information, where the lip movements information lies. Then we demonstrate that once the influences of perturbing factors are alleviated by synthesizing faces with the disentangled lip movements information, the lip-sync task can be done better with much fewer data. Finally, we show its effectiveness in the wild by testing it on an unseen dataset for the active speaker detection task and achieving competitive performance.
Abstract（参考訳）: 唇の動き情報は、多くの視覚的タスクに欠かせない。しかし, 映像から唇の動き情報を抽出することは困難であり, 個人の身元や頭部のポーズなどの要因で容易に抑えられる。本稿では, パラメトリック3次元顔モデルを用いて, 唇運動情報を明瞭に分離する手法を提案する。まず,最近の3次元顔再構成の進歩を基盤として,唇運動情報が存在する表情情報を一貫して分離する手法を提案する。そして,摂動要因の影響を,不連続な唇運動情報と合成することで緩和し,より少ないデータでリップシンク処理を行うことができることを示した。最後に、アクティブな話者検出タスクのための未認識データセット上でテストし、競合性能を達成することで、その有効性を示す。

関連論文リスト

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。 AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文参考訳（メタデータ） (2025-05-27T17:20:38Z)
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [32.124841838431166]
リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。 KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
論文参考訳（メタデータ） (2025-05-01T12:56:17Z)
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳（メタデータ） (2025-02-17T07:29:36Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文参考訳（メタデータ） (2024-08-10T02:46:11Z)
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文参考訳（メタデータ） (2024-05-23T15:42:34Z)
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。 3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文参考訳（メタデータ） (2024-05-07T13:55:50Z)
SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文参考訳（メタデータ） (2023-12-25T04:40:32Z)
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文参考訳（メタデータ） (2023-09-09T14:52:39Z)
Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-18T15:50:04Z)
Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。従来の研究では、唇音の同期と視覚的品質が重要であった。そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-29T07:51:07Z)
SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文参考訳（メタデータ） (2022-11-02T07:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。