Fugu-MT 論文翻訳(概要): LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

論文の概要: LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

arxiv url: http://arxiv.org/abs/2106.04185v1
Date: Tue, 8 Jun 2021 08:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 15:54:29.053527
Title: LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization
Title（参考訳）: LipSync3D: Pose と Lighting Normalization を用いたビデオからのパーソナライズされた3次元発話顔の学習
Authors: Avisek Lahiri, Vivek Kwatra, Christian Frueh, John Lewis, Chris Bregler
Abstract要約: 音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
参考スコア（独自算出の注目度）: 4.43316916502814
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we present a video-based learning framework for animating personalized 3D talking faces from audio. We introduce two training-time data normalizations that significantly improve data sample efficiency. First, we isolate and represent faces in a normalized space that decouples 3D geometry, head pose, and texture. This decomposes the prediction problem into regressions over the 3D face shape and the corresponding 2D texture atlas. Second, we leverage facial symmetry and approximate albedo constancy of skin to isolate and remove spatio-temporal lighting variations. Together, these normalizations allow simple networks to generate high fidelity lip-sync videos under novel ambient illumination while training with just a single speaker-specific video. Further, to stabilize temporal dynamics, we introduce an auto-regressive approach that conditions the model on its previous visual state. Human ratings and objective metrics demonstrate that our method outperforms contemporary state-of-the-art audio-driven video reenactment benchmarks in terms of realism, lip-sync and visual quality scores. We illustrate several applications enabled by our framework.
Abstract（参考訳）: 本稿では、音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。データサンプル効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。まず,3次元形状,頭部ポーズ,テクスチャを分離した正規化空間における顔の分離と表現を行う。これにより、予測問題を3次元顔形状および対応する2次元テクスチャアトラス上の回帰に分解する。第2に,顔面の対称性と皮膚の近似アルベド成分を利用して時空間照明の変動を分離し除去する。これらの正規化によって、単純なネットワークは、単一の話者固有のビデオでトレーニングしながら、新しい環境照明下で高忠実度リップシンクビデオを生成することができる。さらに,時間的ダイナミクスを安定させるために,従来の視覚状態にモデルを条件付ける自動回帰手法を導入する。人間の評価と客観的指標は、我々の手法が現実主義、リップシンク、視覚的品質スコアの点で、現代の最先端オーディオ駆動ビデオ再現ベンチマークより優れていることを示している。フレームワークによって実現されるいくつかのアプリケーションについて説明します。

関連論文リスト

OT-Talk: Animating 3D Talking Head with Optimal Transportation [20.023346831300373]
OT-Talkは、音声ヘッドアニメーションの学習モデルを最適化するために最適なトランスポートを利用する最初のアプローチである。既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。 2つの公開オーディオ・メシュ・データセットに対する実験により,本手法が最先端技術より優れていることを示す。
論文参考訳（メタデータ） (2025-05-03T21:49:23Z)
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文参考訳（メタデータ） (2024-12-01T08:54:30Z)
Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文参考訳（メタデータ） (2024-10-24T01:34:11Z)
SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文参考訳（メタデータ） (2023-12-25T04:40:32Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文参考訳（メタデータ） (2023-09-05T17:59:42Z)
Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-20T13:53:05Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
LiP-Flow: Learning Inference-time Priors for Codec Avatars via Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文参考訳（メタデータ） (2022-03-15T13:22:57Z)
FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文参考訳（メタデータ） (2021-12-10T04:21:59Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。