論文の概要: A Keypoint Based Enhancement Method for Audio Driven Free View Talking
Head Synthesis
- arxiv url: http://arxiv.org/abs/2210.03335v1
- Date: Fri, 7 Oct 2022 05:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:11:08.446730
- Title: A Keypoint Based Enhancement Method for Audio Driven Free View Talking
Head Synthesis
- Title(参考訳): キーポイントに基づく音声駆動型対話ヘッド合成のための拡張手法
- Authors: Yichen Han, Ya Li, Yingming Gao, Jinlong Xue, Songpo Wang, Lei Yang
- Abstract要約: 音声駆動型自由視点音声ヘッド合成のためのキーポイントベース拡張(KPBE)手法を提案する。
実験の結果,提案手法により,平均意見スコアによる音声の質が向上した。
- 参考スコア(独自算出の注目度): 14.303621416852602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio driven talking head synthesis is a challenging task that attracts
increasing attention in recent years. Although existing methods based on 2D
landmarks or 3D face models can synthesize accurate lip synchronization and
rhythmic head pose for arbitrary identity, they still have limitations, such as
the cut feeling in the mouth mapping and the lack of skin highlights. The
morphed region is blurry compared to the surrounding face. A Keypoint Based
Enhancement (KPBE) method is proposed for audio driven free view talking head
synthesis to improve the naturalness of the generated video. Firstly, existing
methods were used as the backend to synthesize intermediate results. Then we
used keypoint decomposition to extract video synthesis controlling parameters
from the backend output and the source image. After that, the controlling
parameters were composited to the source keypoints and the driving keypoints. A
motion field based method was used to generate the final image from the
keypoint representation. With keypoint representation, we overcame the cut
feeling in the mouth mapping and the lack of skin highlights. Experiments show
that our proposed enhancement method improved the quality of talking-head
videos in terms of mean opinion score.
- Abstract(参考訳): 近年,音声駆動音声頭合成は注目度の高い課題となっている。
2Dランドマークや3D顔モデルに基づく既存の方法は、正確な唇の同期とリズムの頭部が任意の同一性を示すように合成することができるが、口のマッピングにおけるカット感や皮膚のハイライトの欠如といった制限がある。
変形した領域は周囲の面に比べてぼやけている。
KPBE(Keypoint Based Enhancement)法は,映像の自然性を改善するために,音声による自由視点音声合成のための手法である。
まず、既存の手法を中間結果を合成するバックエンドとして利用した。
次に、キーポイント分解を用いて、バックエンド出力とソース画像からビデオ合成制御パラメータを抽出する。
その後、制御パラメータはソースキーポイントと駆動キーポイントに合成された。
キーポイント表現から最終画像を生成するために,運動場に基づく手法を用いた。
キーポイント表現では,口のマッピングにおけるカット感と皮膚のハイライトの欠如を克服する。
実験の結果,提案手法により,平均意見スコアによる音声の質が向上した。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Facial Keypoint Sequence Generation from Audio [2.66512000865131]
本研究は,音声キーポイントデータセットを提案し,任意の長さの音声を出力する上で有効なキーポイントシーケンスを出力するモデルを学習する。
オーディオキーポイントデータセットを提案して、任意の長さのオーディオを出力するためのモデルを学ぶ最初の作品である。
論文 参考訳(メタデータ) (2020-11-02T16:47:52Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。