論文の概要: SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory
- arxiv url: http://arxiv.org/abs/2211.00924v2
- Date: Thu, 3 Nov 2022 03:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 11:47:54.967949
- Title: SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory
- Title(参考訳): synctalkface: 音声リップメモリによる正確なリップシンクによる会話顔生成
- Authors: Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, Yong Man Ro
- Abstract要約: 音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
- 参考スコア(独自算出の注目度): 27.255990661166614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of talking face generation from speech lies in aligning two
different modal information, audio and video, such that the mouth region
corresponds to input audio. Previous methods either exploit audio-visual
representation learning or leverage intermediate structural information such as
landmarks and 3D models. However, they struggle to synthesize fine details of
the lips varying at the phoneme level as they do not sufficiently provide
visual information of the lips at the video synthesis step. To overcome this
limitation, our work proposes Audio-Lip Memory that brings in visual
information of the mouth region corresponding to input audio and enforces
fine-grained audio-visual coherence. It stores lip motion features from
sequential ground truth images in the value memory and aligns them with
corresponding audio features so that they can be retrieved using audio input at
inference time. Therefore, using the retrieved lip motion features as visual
hints, it can easily correlate audio with visual dynamics in the synthesis
step. By analyzing the memory, we demonstrate that unique lip features are
stored in each memory slot at the phoneme level, capturing subtle lip motion
based on memory addressing. In addition, we introduce visual-visual
synchronization loss which can enhance lip-syncing performance when used along
with audio-visual synchronization loss in our model. Extensive experiments are
performed to verify that our method generates high-quality video with mouth
shapes that best align with the input audio, outperforming previous
state-of-the-art methods.
- Abstract(参考訳): 音声から発声顔を生成する課題は、口領域が入力音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の方法は、視聴覚表現学習を利用するか、ランドマークや3dモデルなどの中間構造情報を利用する。
しかし、ビデオ合成ステップでは唇の視覚情報を十分に提供していないため、音素レベルでの唇の細部を合成するのに苦労している。
この制限を克服するため,本研究では,入力音声に対応する口領域の視覚情報をもたらし,きめ細かな視覚的コヒーレンスを強制するAudio-Lip Memoryを提案する。
逐次的接地真理画像からの唇動作特徴を値メモリに記憶し、対応する音声特徴と整列させて、推論時に音声入力を用いて検索できるようにする。
したがって、検索した唇の動き特徴を視覚的ヒントとして利用することにより、合成工程における音声と視覚力学との相関を容易に行うことができる。
メモリを解析することにより、各メモリスロットに固有の唇特徴が記憶され、メモリアドレスに基づいて微妙な唇の動きを捉えていることを示す。
さらに,本モデルでは,音声-視覚同期損失とともに,リップ同期性能を向上させる視覚-視覚同期損失を導入する。
提案手法が入力音声に最もよく適合する口形状の高品質な映像を生成することを検証するため, 従来手法よりも優れた実験を行った。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Multi-Temporal Lip-Audio Memory for Visual Speech Recognition [32.65865343643458]
MTLAM(Multi-Temporal Lip-Audio Memory)を提案する。
提案手法は主に2つの部分から構成される: 1) MTLAMは、短期および長期の音声信号から発生する多時間音声特徴を保存し、MTLAMは、推測フェーズにおける視覚的特徴から記憶された多時間音声特徴をロードするための視覚音声マッピングを記憶する。
論文 参考訳(メタデータ) (2023-05-08T08:30:52Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。