論文の概要: Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors
- arxiv url: http://arxiv.org/abs/2305.08293v1
- Date: Mon, 15 May 2023 01:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:27:46.663348
- Title: Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors
- Title(参考訳): ランドマークと外観を優先したアイデンティティ保存型会話顔生成
- Authors: Weizhi Zhong, Chaowei Fang, Yinqi Cai, Pengxu Wei, Gangming Zhao,
Liang Lin, Guanbin Li
- Abstract要約: 既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
- 参考スコア(独自算出の注目度): 106.79923577700345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating talking face videos from audio attracts lots of research interest.
A few person-specific methods can generate vivid videos but require the target
speaker's videos for training or fine-tuning. Existing person-generic methods
have difficulty in generating realistic and lip-synced videos while preserving
identity information. To tackle this problem, we propose a two-stage framework
consisting of audio-to-landmark generation and landmark-to-video rendering
procedures. First, we devise a novel Transformer-based landmark generator to
infer lip and jaw landmarks from the audio. Prior landmark characteristics of
the speaker's face are employed to make the generated landmarks coincide with
the facial outline of the speaker. Then, a video rendering model is built to
translate the generated landmarks into face images. During this stage, prior
appearance information is extracted from the lower-half occluded target face
and static reference images, which helps generate realistic and
identity-preserving visual content. For effectively exploring the prior
information of static reference images, we align static reference images with
the target face's pose and expression based on motion fields. Moreover,
auditory features are reused to guarantee that the generated face images are
well synchronized with the audio. Extensive experiments demonstrate that our
method can produce more realistic, lip-synced, and identity-preserving videos
than existing person-generic talking face generation methods.
- Abstract(参考訳): 音声から会話の顔ビデオを生成することは、多くの研究の関心を集めている。
個人固有のいくつかの方法は、鮮やかなビデオを生成することができるが、訓練や微調整のためにターゲットの話者のビデオを必要とする。
既存の人物生成手法は、身元情報を保存しながら、現実的かつリップ同期のビデオを生成するのに困難である。
そこで本研究では,ランドマーク生成とランドマークからビデオへの描画手順からなる2段階フレームワークを提案する。
まず,音声から唇や顎のランドマークを推定するトランスフォーマーを用いた新しいランドマークジェネレータを考案する。
従来の話者の顔のランドマーク特性を用いて、生成されたランドマークを話者の顔の輪郭と一致させる。
そして、生成されたランドマークを顔画像に変換するために、ビデオレンダリングモデルを構築する。
この段階では、半減した目標面と静的参照画像から事前の外観情報を抽出し、現実的かつアイデンティティ保存された視覚コンテンツを生成する。
静的参照画像の先行情報を効果的に探索するために,静止参照画像と対象の顔のポーズと表情を運動場に基づいて調整する。
さらに、生成した顔画像が音声と十分に同期していることを保証するために、聴覚機能を再利用する。
大規模な実験により,本手法は既存の対面生成法よりも現実的で,リップシンクで,アイデンティティを保った動画を作成できることが示された。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Identity-Preserving Realistic Talking Face Generation [4.848016645393023]
音声から現実的な顔のアニメーションを識別する手法を提案する。
教師なし学習を用いて顔のランドマークに点眼する。
また、LSGANを用いて、人物特有の顔のランドマークから顔のテクスチャを生成する。
論文 参考訳(メタデータ) (2020-05-25T18:08:28Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。