論文の概要: One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning
- arxiv url: http://arxiv.org/abs/2112.02749v1
- Date: Mon, 6 Dec 2021 02:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:31:22.432009
- Title: One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning
- Title(参考訳): 単一話者音声-視覚相関学習による一発対話顔生成
- Authors: Suzhen Wang, Lincheng Li, Yu Ding, Xin Yu
- Abstract要約: 特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
- 参考スコア(独自算出の注目度): 20.51814865676907
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-driven one-shot talking face generation methods are usually trained on
video resources of various persons. However, their created videos often suffer
unnatural mouth shapes and asynchronous lips because those methods struggle to
learn a consistent speech style from different speakers. We observe that it
would be much easier to learn a consistent speech style from a specific
speaker, which leads to authentic mouth movements. Hence, we propose a novel
one-shot talking face generation framework by exploring consistent correlations
between audio and visual motions from a specific speaker and then transferring
audio-driven motion fields to a reference image. Specifically, we develop an
Audio-Visual Correlation Transformer (AVCT) that aims to infer talking motions
represented by keypoint based dense motion fields from an input audio. In
particular, considering audio may come from different identities in deployment,
we incorporate phonemes to represent audio signals. In this manner, our AVCT
can inherently generalize to audio spoken by other identities. Moreover, as
face keypoints are used to represent speakers, AVCT is agnostic against
appearances of the training speaker, and thus allows us to manipulate face
images of different identities readily. Considering different face shapes lead
to different motions, a motion field transfer module is exploited to reduce the
audio-driven dense motion field gap between the training identity and the
one-shot reference. Once we obtained the dense motion field of the reference
image, we employ an image renderer to generate its talking face videos from an
audio clip. Thanks to our learned consistent speaking style, our method
generates authentic mouth shapes and vivid movements. Extensive experiments
demonstrate that our synthesized videos outperform the state-of-the-art in
terms of visual quality and lip-sync.
- Abstract(参考訳): 音声によるワンショット音声生成法は通常、様々な人のビデオリソースに基づいて訓練される。
しかし、彼らの作ったビデオは、異なる話者から一貫した音声スタイルを学ぶのに苦労するため、不自然な口の形や非同期の唇に悩まされることが多い。
特定の話者から一貫した話し方を学ぶのがずっと簡単であり、それが実際の口の動きにつながることを観察する。
そこで本研究では,特定の話者からの音声と視覚動作の一貫した相関関係を探索し,音声駆動の運動場を基準画像に転送する,新しい一発対話型顔生成フレームワークを提案する。
具体的には,入力音声からキーポイントに基づく高密度動き場に代表される発声動作を推定することを目的としたAVCT(Audio-Visual correlation Transformer)を開発した。
特に、音声は配置の異なるアイデンティティから来る可能性があるので、音声信号を表すために音素を組み込む。
このように、当社のAVCTは本質的に他の個人によって話される音声に一般化することができる。
さらに, 顔のキーポイントが話者を表現するために使用されるため, AVCTはトレーニング話者の外観に無知であり, 異なるアイデンティティの顔画像を容易に操作することができる。
異なる顔形状を考えると、運動場転送モジュールを使用して、トレーニングidとワンショット参照との間の音声駆動の密集した動き場ギャップを低減する。
参照画像の高密度な動き場が得られた後、音声クリップから話し顔のビデオを生成するために画像レンダラーを用いた。
学習した一貫した話し方により,本手法は真正な口の形と鮮やかな動きを生成する。
広範な実験により,映像品質とリップシンクの点で,映像合成が最先端を上回っていることが示された。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - FaceFilter: Audio-visual speech separation using still images [41.97445146257419]
本稿では,2つの話者の混在した話者の発話を,ディープ・オーディオ・ビジュアル・音声分離ネットワークを用いて分離することを目的とする。
ビデオクリップの唇の動きや事前登録された話者情報を補助的条件特徴として用いた従来の作品とは異なり、対象話者の単一顔画像を使用する。
論文 参考訳(メタデータ) (2020-05-14T15:42:31Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。