Fugu-MT 論文翻訳(概要): UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control

論文の概要: UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control

arxiv url: http://arxiv.org/abs/2412.19860v1
Date: Thu, 26 Dec 2024 07:39:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.385915
Title: UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control
Title（参考訳）: UniAvatar: 総合的な動作制御と照明制御によるライフライクな音声駆動型トーキングヘッド生成
Authors: Wenzhang Sun, Xiang Li, Donglin Di, Zhuding Liang, Qiyuan Zhang, Hao Li, Wei Chen, Jianxun Cui,
Abstract要約: 広範囲の運動と照明条件を広範囲に制御するUniAvatarを導入する。具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持する。我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。
参考スコア（独自算出の注目度）: 17.039951897703645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, animating portrait images using audio input is a popular task. Creating lifelike talking head videos requires flexible and natural movements, including facial and head dynamics, camera motion, realistic light and shadow effects. Existing methods struggle to offer comprehensive, multifaceted control over these aspects. In this work, we introduce UniAvatar, a designed method that provides extensive control over a wide range of motion and illumination conditions. Specifically, we use the FLAME model to render all motion information onto a single image, maintaining the integrity of 3D motion details while enabling fine-grained, pixel-level control. Beyond motion, this approach also allows for comprehensive global illumination control. We design independent modules to manage both 3D motion and illumination, permitting separate and combined control. Extensive experiments demonstrate that our method outperforms others in both broad-range motion control and lighting control. Additionally, to enhance the diversity of motion and environmental contexts in current datasets, we collect and plan to publicly release two datasets, DH-FaceDrasMvVid-100 and DH-FaceReliVid-200, which capture significant head movements during speech and various lighting scenarios.
Abstract（参考訳）: 近年,音声入力による肖像画のアニメーション化が普及している。ライフスタイルのヘッドビデオを作るには、顔や頭の動き、カメラの動き、リアルな光、シャドウ効果など、柔軟で自然な動きが必要です。既存の手法では、これらの側面を包括的に多面的に制御することは困難である。そこで本研究では,幅広い動作条件と照明条件を広範囲に制御するUniAvatarを提案する。具体的には、FLAMEモデルを用いて、すべてのモーション情報を単一の画像にレンダリングし、3Dモーションの詳細の整合性を維持しながら、きめ細かいピクセルレベルの制御を可能にする。動きを超えて、このアプローチは包括的なグローバル照明制御を可能にする。我々は3次元動作と照明の両方を管理するために独立モジュールを設計し、分離制御と組み合わせ制御を可能にした。広帯域移動制御と照明制御の両方において,本手法が他よりも優れていることを示す。さらに、現在のデータセットにおける動きと環境コンテキストの多様性を高めるために、音声や様々な照明シナリオにおいて重要な頭部の動きを捉えるDH-FaceDrasMvVid-100とDH-FaceReliVid-200という2つのデータセットを公開してリリースする計画を立てている。

関連論文リスト

Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [85.10745006495364]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文参考訳（メタデータ） (2025-04-21T07:10:41Z)
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文参考訳（メタデータ） (2025-04-07T08:56:01Z)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。カメラの動き、物体の動き、照明方向を同時に制御できる。高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-11T13:11:59Z)
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。 I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文参考訳（メタデータ） (2025-02-06T18:41:04Z)
Perception-as-Control: Fine-grained Controllable Image Animation with 3D-aware Motion Representation [21.87745390965703]
本稿では3D対応モーション表現を導入し,詳細な協調動作制御を実現するために,Perception-as-Controlと呼ばれる画像アニメーションフレームワークを提案する。具体的には、参照画像から3D対応の動作表現を構築し、解釈されたユーザ命令に基づいて操作し、異なる視点から知覚する。本フレームワークは,動作制御信号として知覚結果を活用することで,様々な動作関連ビデオ合成タスクを統一的かつ柔軟な方法でサポートできるようにする。
論文参考訳（メタデータ） (2025-01-09T07:23:48Z)
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文参考訳（メタデータ） (2025-01-02T18:59:45Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
Mocap Everyone Everywhere: Lightweight Motion Capture With Smartwatches and a Head-Mounted Camera [10.055317239956423]
本稿では2つのスマートウォッチとヘッドマウントカメラを用いた軽量で安価なモーションキャプチャー手法を提案する。われわれの方法は、あらゆる場所でウェアラブルのモーションキャプチャーを利用できるようにし、多様な環境で3Dのフルボディモーションキャプチャーを可能にする。
論文参考訳（メタデータ） (2024-01-01T18:56:54Z)
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文参考訳（メタデータ） (2023-12-06T17:49:57Z)
Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。まず,逆撮影行動推定手法を提案する。次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文参考訳（メタデータ） (2023-11-29T15:56:58Z)
Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文参考訳（メタデータ） (2023-06-01T07:48:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。