論文の概要: UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control
- arxiv url: http://arxiv.org/abs/2412.19860v1
- Date: Thu, 26 Dec 2024 07:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:45.911084
- Title: UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control
- Title(参考訳): UniAvatar: 総合的な動作制御と照明制御によるライフライクな音声駆動型トーキングヘッド生成
- Authors: Wenzhang Sun, Xiang Li, Donglin Di, Zhuding Liang, Qiyuan Zhang, Hao Li, Wei Chen, Jianxun Cui,
- Abstract要約: 広範囲の運動と照明条件を広範囲に制御するUniAvatarを導入する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持する。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
- 参考スコア(独自算出の注目度): 17.039951897703645
- License:
- Abstract: Recently, animating portrait images using audio input is a popular task. Creating lifelike talking head videos requires flexible and natural movements, including facial and head dynamics, camera motion, realistic light and shadow effects. Existing methods struggle to offer comprehensive, multifaceted control over these aspects. In this work, we introduce UniAvatar, a designed method that provides extensive control over a wide range of motion and illumination conditions. Specifically, we use the FLAME model to render all motion information onto a single image, maintaining the integrity of 3D motion details while enabling fine-grained, pixel-level control. Beyond motion, this approach also allows for comprehensive global illumination control. We design independent modules to manage both 3D motion and illumination, permitting separate and combined control. Extensive experiments demonstrate that our method outperforms others in both broad-range motion control and lighting control. Additionally, to enhance the diversity of motion and environmental contexts in current datasets, we collect and plan to publicly release two datasets, DH-FaceDrasMvVid-100 and DH-FaceReliVid-200, which capture significant head movements during speech and various lighting scenarios.
- Abstract(参考訳): 近年,音声入力による肖像画のアニメーション化が普及している。
ライフスタイルのヘッドビデオを作るには、顔や頭の動き、カメラの動き、リアルな光、シャドウ効果など、柔軟で自然な動きが必要です。
既存の手法では、これらの側面を包括的に多面的に制御することは困難である。
そこで本研究では,幅広い動作条件と照明条件を広範囲に制御するUniAvatarを提案する。
具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持しながら、きめ細かいピクセルレベルの制御を可能にする。
動きを超えて、このアプローチは包括的なグローバル照明制御を可能にする。
我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
広帯域移動制御と照明制御の両方において,本手法が他よりも優れていることを示す。
さらに、現在のデータセットにおける動きと環境コンテキストの多様性を高めるために、音声や様々な照明シナリオにおいて重要な頭部の動きを捉えるDH-FaceDrasMvVid-100とDH-FaceReliVid-200という2つのデータセットを公開してリリースする計画を立てている。
関連論文リスト
- VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像から映像までを正確に生成するための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
ベンチマークデータセットの実験では、高品質のビデオコンテンツの生成におけるVidCRAFT3の有効性が示されている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。
I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文 参考訳(メタデータ) (2025-02-06T18:41:04Z) - Perception-as-Control: Fine-grained Controllable Image Animation with 3D-aware Motion Representation [21.87745390965703]
本稿では3D対応モーション表現を導入し,詳細な協調動作制御を実現するために,Perception-as-Controlと呼ばれる画像アニメーションフレームワークを提案する。
具体的には、参照画像から3D対応の動作表現を構築し、解釈されたユーザ意図に基づいて操作し、異なる視点から知覚する。
このように、カメラとオブジェクトの動きは直感的で一貫した視覚的変化に変換される。
論文 参考訳(メタデータ) (2025-01-09T07:23:48Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera [10.055317239956423]
本稿では2つのスマートウォッチとヘッドマウントカメラを用いた軽量で安価なモーションキャプチャー手法を提案する。
われわれの方法は、あらゆる場所でウェアラブルのモーションキャプチャーを利用できるようにし、多様な環境で3Dのフルボディモーションキャプチャーを可能にする。
論文 参考訳(メタデータ) (2024-01-01T18:56:54Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。