論文の概要: DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions
- arxiv url: http://arxiv.org/abs/2303.07697v1
- Date: Tue, 14 Mar 2023 08:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:58:50.930455
- Title: DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions
- Title(参考訳): DisCoHead: 頭部と顔の表情のアンタングル制御による音声・ビデオ駆動型トーキングヘッド生成
- Authors: Geumbyeol Hwang, Sunwon Hong, Seunghyun Lee, Sungwoo Park, Gyeongsu
Chae
- Abstract要約: DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 21.064765388027727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For realistic talking head generation, creating natural head motion while
maintaining accurate lip synchronization is essential. To fulfill this
challenging task, we propose DisCoHead, a novel method to disentangle and
control head pose and facial expressions without supervision. DisCoHead uses a
single geometric transformation as a bottleneck to isolate and extract head
motion from a head-driving video. Either an affine or a thin-plate spline
transformation can be used and both work well as geometric bottlenecks. We
enhance the efficiency of DisCoHead by integrating a dense motion estimator and
the encoder of a generator which are originally separate modules. Taking a step
further, we also propose a neural mix approach where dense motion is estimated
and applied implicitly by the encoder. After applying the disentangled head
motion to a source identity, DisCoHead controls the mouth region according to
speech audio, and it blinks eyes and moves eyebrows following a separate
driving video of the eye region, via the weight modulation of convolutional
neural networks. The experiments using multiple datasets show that DisCoHead
successfully generates realistic audio-and-video-driven talking heads and
outperforms state-of-the-art methods. Project page:
https://deepbrainai-research.github.io/discohead/
- Abstract(参考訳): リアルな会話ヘッド生成には、正確な唇同期を維持しながら自然な頭部の動きを作り出すことが不可欠である。
そこで本研究では,この課題を達成するために,頭部ポーズや表情を制御・制御する新しい手法であるDisCoHeadを提案する。
DisCoHeadは、1つの幾何学変換をボトルネックとして、ヘッドドライブビデオから頭部の動きを分離して抽出する。
アフィンまたは薄板のスプライン変換が使用でき、どちらも幾何学的ボトルネックとして機能する。
独立モジュールであるジェネレータの高密度動作推定器とエンコーダを統合することにより,DisCoHeadの効率を向上させる。
さらにさらに,エンコーダによって濃密な動きを推定し,暗黙的に適用するニューラルミックス手法を提案する。
遠絡した頭部の動きを音源の同一性に適用した後、DisCoHeadは音声で口領域を制御し、畳み込みニューラルネットワークの重み付けにより、目領域の別々に駆動するビデオの後、眼球を点滅させる。
複数のデータセットを用いた実験は、DisCoHeadが現実的な音声とビデオ駆動の会話ヘッドをうまく生成し、最先端の手法より優れていることを示している。
プロジェクトページ: https://deepbrainai-research.github.io/discohead/
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation [17.158581488104186]
従来の音声駆動型音声ヘッド生成(THG)手法は、音声の駆動から頭部ポーズを生成する。
テキストプロンプトと音声に条件付の自由なポーズで、リップ同期音声ヘッドビデオを自由に生成できるTHGシステムである textbfPoseTalk を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:30:25Z) - OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous
Head Motions [14.220727407255966]
ワンショット音声ヘッド生成は、明示的な頭部運動参照を持たない。
我々は,自然な頭部動作を持つテキスト・ツー・マニア・ワンショット・トーキング・ヘッド・ジェネレーション・ネットワークであるOSM-Netを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:51:54Z) - FONT: Flow-guided One-shot Talking Head Generation with Natural Head
Motions [14.205344055665414]
フロー誘導ワンショットモデルは生成した音声の頭上でのNaTuralヘッドの動きを達成する。
ヘッドポーズ予測モジュールは、ソース顔からヘッドポーズシーケンスを生成し、オーディオを駆動するように設計されている。
論文 参考訳(メタデータ) (2023-03-31T03:25:06Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - HeadGAN: One-shot Neural Head Synthesis and Editing [70.30831163311296]
HeadGANは、3D顔表現を合成し、任意の参照画像の顔形状に適応するシステムです。
3D顔表現により、圧縮と再構築の効率的な方法、表現とポーズ編集のツールとしてさらに使用できるようになります。
論文 参考訳(メタデータ) (2020-12-15T12:51:32Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。