論文の概要: Talking-head Generation with Rhythmic Head Motion
- arxiv url: http://arxiv.org/abs/2007.08547v1
- Date: Thu, 16 Jul 2020 18:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 00:02:12.352385
- Title: Talking-head Generation with Rhythmic Head Motion
- Title(参考訳): リズム頭部運動を用いたトーキングヘッド生成
- Authors: Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and
Chenliang Xu
- Abstract要約: 本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
- 参考スコア(独自算出の注目度): 46.6897675583319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When people deliver a speech, they naturally move heads, and this rhythmic
head motion conveys prosodic information. However, generating a lip-synced
video while moving head naturally is challenging. While remarkably successful,
existing works either generate still talkingface videos or rely on
landmark/video frames as sparse/dense mapping guidance to generate head
movements, which leads to unrealistic or uncontrollable video synthesis. To
overcome the limitations, we propose a 3D-aware generative network along with a
hybrid embedding module and a non-linear composition module. Through modeling
the head motion and facial expressions1 explicitly, manipulating 3D animation
carefully, and embedding reference images dynamically, our approach achieves
controllable, photo-realistic, and temporally coherent talking-head videos with
natural head movements. Thoughtful experiments on several standard benchmarks
demonstrate that our method achieves significantly better results than the
state-of-the-art methods in both quantitative and qualitative comparisons. The
code is available on https://github.com/
lelechen63/Talking-head-Generation-with-Rhythmic-Head-Motion.
- Abstract(参考訳): 人々がスピーチを届けると、彼らは自然に頭を動かし、このリズミカルな頭の動きは韻律情報を伝達する。
しかし,頭部を自然に動かしながらリップ同期ビデオを生成することは困難である。
非常に成功したが、既存の作品は静止画のビデオを生成するか、ヘッドモーションを生成するためのスパース/デンスマッピングガイダンスとしてランドマーク/ビデオフレームに頼っている。
この制限を克服するため,ハイブリッド埋め込みモジュールと非線形合成モジュールとともに3次元認識型生成ネットワークを提案する。
頭部の動きと表情1を明示的にモデル化し、3dアニメーションを慎重に操作し、参照画像を動的に埋め込み、自然な頭部の動きで制御可能で、フォトリアリスティックで、時間的にコヒーレントなトーキーヘッドビデオを実現する。
いくつかの標準ベンチマークにおける疑わしい実験により,本手法は定量比較と定性比較の両方において最先端の手法よりもはるかに優れた結果が得られることが示された。
コードはhttps://github.com/lelechen63/Talking-head-Generation-with-Rhythmic-Head-Motionで公開されている。
関連論文リスト
- DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。
DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。
本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文 参考訳(メタデータ) (2024-10-17T16:32:36Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions [21.064765388027727]
DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-03-14T08:22:18Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。