論文の概要: UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control
- arxiv url: http://arxiv.org/abs/2412.19860v1
- Date: Thu, 26 Dec 2024 07:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:45.911084
- Title: UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control
- Title(参考訳): UniAvatar: 総合的な動作制御と照明制御によるライフライクな音声駆動型トーキングヘッド生成
- Authors: Wenzhang Sun, Xiang Li, Donglin Di, Zhuding Liang, Qiyuan Zhang, Hao Li, Wei Chen, Jianxun Cui,
- Abstract要約: 広範囲の運動と照明条件を広範囲に制御するUniAvatarを導入する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持する。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
- 参考スコア(独自算出の注目度): 17.039951897703645
- License:
- Abstract: Recently, animating portrait images using audio input is a popular task. Creating lifelike talking head videos requires flexible and natural movements, including facial and head dynamics, camera motion, realistic light and shadow effects. Existing methods struggle to offer comprehensive, multifaceted control over these aspects. In this work, we introduce UniAvatar, a designed method that provides extensive control over a wide range of motion and illumination conditions. Specifically, we use the FLAME model to render all motion information onto a single image, maintaining the integrity of 3D motion details while enabling fine-grained, pixel-level control. Beyond motion, this approach also allows for comprehensive global illumination control. We design independent modules to manage both 3D motion and illumination, permitting separate and combined control. Extensive experiments demonstrate that our method outperforms others in both broad-range motion control and lighting control. Additionally, to enhance the diversity of motion and environmental contexts in current datasets, we collect and plan to publicly release two datasets, DH-FaceDrasMvVid-100 and DH-FaceReliVid-200, which capture significant head movements during speech and various lighting scenarios.
- Abstract(参考訳): 近年,音声入力による肖像画のアニメーション化が普及している。
ライフスタイルのヘッドビデオを作るには、顔や頭の動き、カメラの動き、リアルな光、シャドウ効果など、柔軟で自然な動きが必要です。
既存の手法では、これらの側面を包括的に多面的に制御することは困難である。
そこで本研究では,幅広い動作条件と照明条件を広範囲に制御するUniAvatarを提案する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持しながら、きめ細かいピクセルレベルの制御を可能にする。
動きを超えて、このアプローチは包括的なグローバル照明制御を可能にする。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
広帯域移動制御と照明制御の両方において,本手法が他よりも優れていることを示す。
さらに、現在のデータセットにおける動きと環境コンテキストの多様性を高めるために、音声や様々な照明シナリオにおいて重要な頭部の動きを捉えるDH-FaceDrasMvVid-100とDH-FaceReliVid-200という2つのデータセットを公開してリリースする計画を立てている。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos [14.965321452764355]
我々はOmnidirectional Local Radiance Fields (OmniLocalRF)と呼ばれる新しいアプローチを導入し、静的のみのシーンビューをレンダリングする。
本手法は局所放射界の原理と全方位光の双方向最適化を組み合わせたものである。
実験により,OmniLocalRFは定性的,定量的に既存手法より優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-31T12:55:05Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera [10.055317239956423]
本稿では2つのスマートウォッチとヘッドマウントカメラを用いた軽量で安価なモーションキャプチャー手法を提案する。
われわれの方法は、あらゆる場所でウェアラブルのモーションキャプチャーを利用できるようにし、多様な環境で3Dのフルボディモーションキャプチャーを可能にする。
論文 参考訳(メタデータ) (2024-01-01T18:56:54Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。