論文の概要: High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2502.19894v1
- Date: Thu, 27 Feb 2025 09:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:31.622077
- Title: High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion Model
- Title(参考訳): ライティング制御型ビデオ拡散モデルを用いた高忠実リフレクタブルモノクラー像アニメーション
- Authors: Mingtao Guo, Guanyu Xing, Yanli Liu,
- Abstract要約: 既存のポートレートアニメーション法では、内在的(アイデンティティと外観)と外在的(目的と照明)の特徴を分離・操作しないため、ライティング可能なポートレートを実現することができない。
本稿では,高忠実でライティング可能なポートレートアニメーションのためのライティング制御可能なビデオ拡散モデル(LCVD)を提案する。
- 参考スコア(独自算出の注目度): 4.163635746713724
- License:
- Abstract: Relightable portrait animation aims to animate a static reference portrait to match the head movements and expressions of a driving video while adapting to user-specified or reference lighting conditions. Existing portrait animation methods fail to achieve relightable portraits because they do not separate and manipulate intrinsic (identity and appearance) and extrinsic (pose and lighting) features. In this paper, we present a Lighting Controllable Video Diffusion model (LCVD) for high-fidelity, relightable portrait animation. We address this limitation by distinguishing these feature types through dedicated subspaces within the feature space of a pre-trained image-to-video diffusion model. Specifically, we employ the 3D mesh, pose, and lighting-rendered shading hints of the portrait to represent the extrinsic attributes, while the reference represents the intrinsic attributes. In the training phase, we employ a reference adapter to map the reference into the intrinsic feature subspace and a shading adapter to map the shading hints into the extrinsic feature subspace. By merging features from these subspaces, the model achieves nuanced control over lighting, pose, and expression in generated animations. Extensive evaluations show that LCVD outperforms state-of-the-art methods in lighting realism, image quality, and video consistency, setting a new benchmark in relightable portrait animation.
- Abstract(参考訳): ライティング可能なポートレートアニメーションは、静的な参照ポートレートをアニメーション化し、ユーザが指定した照明条件や参照照明条件に適応しながら、運転映像の頭部の動きと表情を一致させることを目的としている。
既存のポートレートアニメーション法では、内在的(アイデンティティと外観)と外在的(目的と照明)の特徴を分離・操作しないため、ライティング可能なポートレートを実現することができない。
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精
我々は,これらの特徴型を,事前学習した画像-映像拡散モデルの特徴空間内の専用部分空間を通して識別することで,この制限に対処する。
具体的には,3Dメッシュ,ポーズ,ライティングでレンダリングされたポートレートのシェーディングヒントを用いて,外在特性を表現し,参照は内在特性を表現している。
トレーニングフェーズでは、参照アダプタを使用して、その参照を固有の特徴部分空間にマッピングし、シェーディングアダプタを使用して、シェーディングヒントを外部特徴部分空間にマッピングする。
これらの部分空間から特徴をマージすることで、モデルは生成したアニメーションにおける照明、ポーズ、表現のニュアンスな制御を実現する。
大規模な評価では、LCVDはリアリズム、画質、映像の一貫性において最先端の手法よりも優れており、ライティング可能なポートレートアニメーションの新たなベンチマークが設定されている。
関連論文リスト
- DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [13.366879755548636]
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に切り離すことを目的としている。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
論文 参考訳(メタデータ) (2024-12-12T15:15:59Z) - LumiSculpt: A Consistency Lighting Control Network for Video Generation [67.48791242688493]
ライティングは、ビデオ生成の自然性を保証する上で重要な役割を果たす。
独立的でコヒーレントな照明特性を分離し、モデル化することは依然として困難である。
LumiSculptは、T2V生成モデルにおける正確で一貫した照明制御を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:44:08Z) - Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。
我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文 参考訳(メタデータ) (2024-10-24T01:34:11Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting [149.1673041605155]
1枚の画像からアルベド, 正常, 深さ, 3次元の空間的変化を共同で推定する問題に対処する。
既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。
本研究では3次元空間変動照明を定式化する統合学習ベースの逆フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:29:03Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Relightable 3D Head Portraits from a Smartphone Video [15.639140551193073]
本稿では,人間の頭部の3D像を再現するシステムを提案する。
私たちのニューラルパイプラインは、スマートフォンのカメラがフラッシュ点滅で撮影したフレームのシーケンスで動作します。
ディープレンダリングネットワークは、任意の新しい視点のために密なアルベド、ノーマル、環境照明マップを後退させるように訓練される。
論文 参考訳(メタデータ) (2020-12-17T22:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。