論文の概要: Perceptual Conversational Head Generation with Regularized Driver and
Enhanced Renderer
- arxiv url: http://arxiv.org/abs/2206.12837v1
- Date: Sun, 26 Jun 2022 10:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:12:30.674484
- Title: Perceptual Conversational Head Generation with Regularized Driver and
Enhanced Renderer
- Title(参考訳): 正規化ドライバと拡張レンダを用いた知覚対話型ヘッド生成
- Authors: Ailin Huang, Zhewei Huang, Shuchang Zhou
- Abstract要約: 我々のソリューションは、正規化と高い視覚的品質の組み立てにより、一般化されたオーディオ・ツー・ヘッドドライバを訓練することに焦点を当てている。
公式ランキングでは、聴取ヘッド生成トラックで1位、話しヘッド生成トラックで2位となる。
- 参考スコア(独自算出の注目度): 4.201920674650052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports our solution for MultiMedia ViCo 2022 Conversational Head
Generation Challenge, which aims to generate vivid face-to-face conversation
videos based on audio and reference images. Our solution focuses on training a
generalized audio-to-head driver using regularization and assembling a high
visual quality renderer. We carefully tweak the audio-to-behavior model and
post-process the generated video using our foreground-background fusion module.
We get first place in the listening head generation track and second place in
the talking head generation track in the official ranking. Our code will be
released.
- Abstract(参考訳): 本稿では,音声および参照画像に基づく対話映像の鮮明な生成を目的とした,MultiMedia ViCo 2022 Conversational Head Generation Challengeのソリューションについて報告する。
我々のソリューションは、正規化と高画質レンダラーの組み立てによる一般化されたオーディオ・ツー・ヘッドドライバのトレーニングに焦点を当てている。
我々は,前景・後景融合モジュールを用いて,音声対話モデルと生成映像のポスト処理を慎重に調整する。
公式ランキングでは、聴取ヘッド生成トラックで1位、話しヘッド生成トラックで2位となる。
私たちのコードはリリースされます。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Hierarchical Semantic Perceptual Listener Head Video Generation: A
High-performance Pipeline [6.9329709955764045]
ViCo@2023 ACM Multimedia 2023 Conferenceにおける会話型ヘッドジェネレーションチャレンジ
本稿は、ACM Multimedia 2023 conferenceにおけるViCo@2023 Conversational Head Generation Challengeのテクニカルレポートである。
論文 参考訳(メタデータ) (2023-07-19T08:16:34Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - Audio-Visual Face Reenactment [34.79242760137663]
本研究は,音声とビジュアルストリームを用いて,リアルな音声ヘッドビデオを生成する新しい手法を提案する。
学習可能なキーポイントを用いて発生する濃密な運動場を用いて、運転映像から頭部の動きを伝達することにより、音源画像のアニメーション化を行う。
我々は、音声を付加入力としてリップシンクの質を改善し、そのネットワークが口領域に到達するのを手助けする。
論文 参考訳(メタデータ) (2022-10-06T08:48:10Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation [60.3813545478593]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。