論文の概要: ReliTalk: Relightable Talking Portrait Generation from a Single Video
- arxiv url: http://arxiv.org/abs/2309.02434v1
- Date: Tue, 5 Sep 2023 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 13:35:22.253193
- Title: ReliTalk: Relightable Talking Portrait Generation from a Single Video
- Title(参考訳): ReliTalk: 単一のビデオから楽しい講演のポートレート生成
- Authors: Haonan Qiu, Zhaoxi Chen, Yuming Jiang, Hang Zhou, Xiangyu Fan, Lei
Yang, Wayne Wu and Ziwei Liu
- Abstract要約: ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
- 参考スコア(独自算出の注目度): 62.47116237654984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed great progress in creating vivid audio-driven
portraits from monocular videos. However, how to seamlessly adapt the created
video avatars to other scenarios with different backgrounds and lighting
conditions remains unsolved. On the other hand, existing relighting studies
mostly rely on dynamically lighted or multi-view data, which are too expensive
for creating video portraits. To bridge this gap, we propose ReliTalk, a novel
framework for relightable audio-driven talking portrait generation from
monocular videos. Our key insight is to decompose the portrait's reflectance
from implicitly learned audio-driven facial normals and images. Specifically,
we involve 3D facial priors derived from audio features to predict delicate
normal maps through implicit functions. These initially predicted normals then
take a crucial part in reflectance decomposition by dynamically estimating the
lighting condition of the given video. Moreover, the stereoscopic face
representation is refined using the identity-consistent loss under simulated
multiple lighting conditions, addressing the ill-posed problem caused by
limited views available from a single monocular video. Extensive experiments
validate the superiority of our proposed framework on both real and synthetic
datasets. Our code is released in https://github.com/arthur-qiu/ReliTalk.
- Abstract(参考訳): 近年、モノクラービデオから鮮明なオーディオ駆動の肖像画を作成する大きな進歩が見られた。
しかし、作成したビデオアバターを背景や照明条件の異なる他のシナリオにシームレスに適応させる方法はまだ未解決である。
一方、既存のライティング研究は主に動的に照らされたデータやマルチビューデータに依存しており、映像のポートレートを作成するには高すぎる。
そこで本稿では,このギャップを埋めるために,単眼映像からの音声駆動型発話ポートレート生成のための新しいフレームワークであるrelitalkを提案する。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
具体的には,音声特徴から派生した3次元顔先行画像を用いて,暗黙的機能による繊細な正規地図の予測を行う。
これらの予測正常は、与えられた映像の照明条件を動的に推定することにより、反射率分解において重要な役割を果たす。
さらに、複数の照明条件をシミュレートした条件下での恒等性損失を用いて立体視表現を洗練し、単一のモノクロビデオから利用可能な限られたビューによって生じる問題に対処する。
実データと合成データの両方において,提案フレームワークの優越性を検証する広範な実験を行った。
私たちのコードはhttps://github.com/arthur-qiu/ReliTalkで公開されています。
関連論文リスト
- Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Relightable 3D Head Portraits from a Smartphone Video [15.639140551193073]
本稿では,人間の頭部の3D像を再現するシステムを提案する。
私たちのニューラルパイプラインは、スマートフォンのカメラがフラッシュ点滅で撮影したフレームのシーケンスで動作します。
ディープレンダリングネットワークは、任意の新しい視点のために密なアルベド、ノーマル、環境照明マップを後退させるように訓練される。
論文 参考訳(メタデータ) (2020-12-17T22:49:02Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。