論文の概要: DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions
- arxiv url: http://arxiv.org/abs/2303.07697v1
- Date: Tue, 14 Mar 2023 08:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:58:50.930455
- Title: DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions
- Title(参考訳): DisCoHead: 頭部と顔の表情のアンタングル制御による音声・ビデオ駆動型トーキングヘッド生成
- Authors: Geumbyeol Hwang, Sunwon Hong, Seunghyun Lee, Sungwoo Park, Gyeongsu
Chae
- Abstract要約: DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 21.064765388027727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For realistic talking head generation, creating natural head motion while
maintaining accurate lip synchronization is essential. To fulfill this
challenging task, we propose DisCoHead, a novel method to disentangle and
control head pose and facial expressions without supervision. DisCoHead uses a
single geometric transformation as a bottleneck to isolate and extract head
motion from a head-driving video. Either an affine or a thin-plate spline
transformation can be used and both work well as geometric bottlenecks. We
enhance the efficiency of DisCoHead by integrating a dense motion estimator and
the encoder of a generator which are originally separate modules. Taking a step
further, we also propose a neural mix approach where dense motion is estimated
and applied implicitly by the encoder. After applying the disentangled head
motion to a source identity, DisCoHead controls the mouth region according to
speech audio, and it blinks eyes and moves eyebrows following a separate
driving video of the eye region, via the weight modulation of convolutional
neural networks. The experiments using multiple datasets show that DisCoHead
successfully generates realistic audio-and-video-driven talking heads and
outperforms state-of-the-art methods. Project page:
https://deepbrainai-research.github.io/discohead/
- Abstract(参考訳): リアルな会話ヘッド生成には、正確な唇同期を維持しながら自然な頭部の動きを作り出すことが不可欠である。
そこで本研究では,この課題を達成するために,頭部ポーズや表情を制御・制御する新しい手法であるDisCoHeadを提案する。
DisCoHeadは、1つの幾何学変換をボトルネックとして、ヘッドドライブビデオから頭部の動きを分離して抽出する。
アフィンまたは薄板のスプライン変換が使用でき、どちらも幾何学的ボトルネックとして機能する。
独立モジュールであるジェネレータの高密度動作推定器とエンコーダを統合することにより,DisCoHeadの効率を向上させる。
さらにさらに,エンコーダによって濃密な動きを推定し,暗黙的に適用するニューラルミックス手法を提案する。
遠絡した頭部の動きを音源の同一性に適用した後、DisCoHeadは音声で口領域を制御し、畳み込みニューラルネットワークの重み付けにより、目領域の別々に駆動するビデオの後、眼球を点滅させる。
複数のデータセットを用いた実験は、DisCoHeadが現実的な音声とビデオ駆動の会話ヘッドをうまく生成し、最先端の手法より優れていることを示している。
プロジェクトページ: https://deepbrainai-research.github.io/discohead/
関連論文リスト
- HS-Diffusion: Learning a Semantic-Guided Diffusion Model for Head
Swapping [55.002675776888864]
画像に基づくヘッドスワップフレームワーク(HS-Diffusion)を提案する。
HS拡散は意味誘導潜在拡散モデル(SG-LDM)と意味的レイアウト生成器から構成される。
画像に基づく頭部スワップベンチマークを新たに構築し,その設計基準を2つ提案する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized
Audio-Driven Single Image Talking Face Animation [33.651156455111916]
本稿では,3DMMの3次元動き係数(頭部ポーズ,表情)を音声から生成するSadTalkerを提案する。
正確には、3Dレンダリングされた顔の両係数を蒸留することにより、音声から正確な表情を学習するExpNetを提案する。
論文 参考訳(メタデータ) (2022-11-22T11:35:07Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation [60.3813545478593]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - HeadGAN: One-shot Neural Head Synthesis and Editing [70.30831163311296]
HeadGANは、3D顔表現を合成し、任意の参照画像の顔形状に適応するシステムです。
3D顔表現により、圧縮と再構築の効率的な方法、表現とポーズ編集のツールとしてさらに使用できるようになります。
論文 参考訳(メタデータ) (2020-12-15T12:51:32Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。