論文の概要: Embedded Representation Learning Network for Animating Styled Video Portrait
- arxiv url: http://arxiv.org/abs/2404.19038v1
- Date: Mon, 29 Apr 2024 18:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:10:13.534267
- Title: Embedded Representation Learning Network for Animating Styled Video Portrait
- Title(参考訳): 映像画像のアニメーション化のための埋め込み表現学習ネットワーク
- Authors: Tianyong Wang, Xiangyu Liang, Wangguandong Zheng, Dan Niu, Haifeng Xia, Siyu Xia,
- Abstract要約: 本稿では,2つの学習段階を持つ新しい生成パラダイムテキスト表現学習ネットワーク(ERLNet)を提案する。
まず、テキスト音声駆動FLAME(ADF)モジュールを構築し、コンテンツオーディオやスタイルビデオと同期した表情と頭部ポーズシーケンスを生成する。
第2に、AFFによって導出されるシーケンスを考えると、DBF-NeRF (textitdual-branch fusion NeRF) が最終画像の描画のためにこれらの内容を探索する。
- 参考スコア(独自算出の注目度): 16.23093827259694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The talking head generation recently attracted considerable attention due to its widespread application prospects, especially for digital avatars and 3D animation design. Inspired by this practical demand, several works explored Neural Radiance Fields (NeRF) to synthesize the talking heads. However, these methods based on NeRF face two challenges: (1) Difficulty in generating style-controllable talking heads. (2) Displacement artifacts around the neck in rendered images. To overcome these two challenges, we propose a novel generative paradigm \textit{Embedded Representation Learning Network} (ERLNet) with two learning stages. First, the \textit{ audio-driven FLAME} (ADF) module is constructed to produce facial expression and head pose sequences synchronized with content audio and style video. Second, given the sequence deduced by the ADF, one novel \textit{dual-branch fusion NeRF} (DBF-NeRF) explores these contents to render the final images. Extensive empirical studies demonstrate that the collaboration of these two stages effectively facilitates our method to render a more realistic talking head than the existing algorithms.
- Abstract(参考訳): 講演ヘッドジェネレーションは、特にデジタルアバターや3Dアニメーションの設計において、広く応用される可能性から、近年大きな注目を集めている。
この実際的な要求に触発されて、いくつかの研究が、発声ヘッドを合成するためにNeRF(Neural Radiance Fields)を探索した。
しかし、これらの手法はNeRFに基づく2つの課題に直面している。
2)レンダリング画像における頸部周囲の変位アーティファクト
これら2つの課題を克服するために,2つの学習段階を持つ新たな生成パラダイムである「textit{Embedded Representation Learning Network} (ERLNet)」を提案する。
まず,「textit{ audio-driven FLAME} (ADF)」モジュールを構築し,コンテンツ音声やスタイルビデオと同期した表情と頭部ポーズのシーケンスを生成する。
第二に、AFFによって導出されるシーケンスを考えると、ある小説 \textit{dual-branch fusion NeRF} (DBF-NeRF) はこれらの内容を探索して最終的な画像を描画する。
広範にわたる実証研究により、これらの2つの段階の協調が、既存のアルゴリズムよりもよりリアルな発話ヘッドの描画を効果的に促すことが実証された。
関連論文リスト
- VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。