論文の概要: Pixel Cube: Diffusion-based Portrait Video Relighting Through Realistic Lighting Reproduction
- arxiv url: http://arxiv.org/abs/2606.02919v2
- Date: Thu, 04 Jun 2026 07:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.101868
- Title: Pixel Cube: Diffusion-based Portrait Video Relighting Through Realistic Lighting Reproduction
- Title(参考訳): Pixel Cube:リアルなライティングの再現による拡散ベースのポートレートビデオのリライティング
- Authors: Yufan Zhang, Yu Ji, Ayo Ajiboye, Rundi Wu, Yu Guo, Changxi Zheng, Jinwei Ye,
- Abstract要約: 本稿では,動的ポートレート映像を光写実性と時間的整合性でリライトする拡散法を提案する。
我々のモデルは、現実的に見え、提供された新しい環境下で、時間的に一貫した忠実なポートレートビデオを生成することができる。
その結果,本手法は光リアリズム,照明調和,時間的一貫性の両立を実現していることがわかった。
- 参考スコア(独自算出の注目度): 23.572176892343254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a diffusion-based method for relighting dynamic portrait videos with photorealism and temporal consistency. Our method is fueled by a hybrid training dataset that consists of real-captured and rendered dynamic portrait videos with diverse subject appearances, facial motions, head poses, and known lighting conditions. Specifically, we construct an LED-based lighting system for realistic lighting emulation and high-speed video relighting data acquisition. By leveraging the image priors embedded in pre-trained video diffusion models, and using per-frame high dynamic range (HDR) environment map as lighting control, we train a high-performance generative model for realistic and identity-preserving dynamic portrait video relighting. In addition to the environment map control, our model uses a synthesized background image to enable control on the camera's exposure level and color tone. Our model can produce temporally consistent relit portrait video that looks realistic and harmonious under a provided new environment and faithfully preserve the subject's expression and fine facial features, including skin tone, wrinkles, and facial hair. Our model generalizes well to unseen data, in terms of the subject appearance, motion, and lighting condition. We perform extensive experiments on relighting in-the-wild videos with various environment maps and demonstrate practical applications on portrait photography. Results show that our method achieves state-of-the-art performance in photorealism, lighting harmony, and temporal consistency.
- Abstract(参考訳): 本稿では,動的ポートレート映像を光写実性と時間的整合性でリライトする拡散法を提案する。
提案手法は,様々な被写体,顔の動き,頭部ポーズ,および既知の照明条件を備えた実撮・レンダリングされた動的ポートレートビデオからなるハイブリッドトレーニングデータセットによって実現されている。
具体的には、現実的な照明エミュレーションと高速ビデオリライトデータ取得のためのLED照明システムを構築する。
予め訓練した映像拡散モデルに埋め込まれた画像の事前情報を活用し、フレームごとの高ダイナミックレンジ(HDR)環境マップを照明制御として利用することにより、現実的でアイデンティティを保った動的ポートレート映像のライティングのための高性能な生成モデルを訓練する。
環境マップ制御に加えて、合成背景画像を用いて、カメラの露出レベルと色調を制御できる。
提案モデルでは,提示された新しい環境下で現実的で調和し,肌のトーン,しわ,顔の毛髪など,被験者の表情や顔の特徴を忠実に保存する,時間的に一貫した肖像画映像を作成できる。
我々のモデルは、被写体、動き、照明条件の観点から、目に見えないデータによく一般化する。
我々は,様々な環境マップを用いた映像のリライティングに関する広範な実験を行い,ポートレート・フォトグラフィーへの実践的応用を実証した。
その結果,本手法は光リアリズム,照明調和,時間的一貫性の両立を実現していることがわかった。
関連論文リスト
- POLAR: A Portrait OLAT Dataset and Generative Framework for Illumination-Aware Face Modeling [51.7495375918484]
顔のリライティングは、アイデンティティと幾何学を保ちながら、新しい照明の下でリアルな肖像画を合成することを目的としている。
大規模かつ物理的に校正されたOne-Light-at-a-TimeデータセットであるPOLARを紹介した。
フローベース生成モデル POLARNet を開発した。これは1つのポートレートから光ごとのOLAT応答を予測し、顔認証を保ちながら細粒度で方向対応の照明効果を捉える。
論文 参考訳(メタデータ) (2025-12-15T11:04:09Z) - LuxDiT: Lighting Estimation with Video Diffusion Transformer [66.60450792095901]
単一の画像やビデオからシーンライティングを推定することは、コンピュータビジョンとグラフィックスにおいて長年の課題である。
本稿では,映像拡散変換器を微調整し,視覚入力を前提としたHDR環境マップを生成するLuxDiTを提案する。
論文 参考訳(メタデータ) (2025-09-03T19:59:20Z) - Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset [33.388553876200795]
我々はLux Post Factoを紹介した。これは光リアリスティックと時間的に一貫した照明効果を両立させる新しいポートレートビデオライティング手法である。
提案手法では,静的表現OLATデータと画像内パフォーマンスビデオを組み合わせたハイブリッドデータセットを用いて,ライティングと時間的モデリングを共同で学習する。
論文 参考訳(メタデータ) (2025-03-18T17:55:22Z) - RelightVid: Temporal-Consistent Diffusion Model for Video Relighting [95.10341081549129]
RelightVidはビデオのリライトのためのフレキシブルなフレームワークだ。
バックグラウンドビデオ、テキストプロンプト、環境マップをリライト条件として受け入れることができる。
内在的な分解を伴わずに、時間的整合性の高い任意のビデオリライティングを実現する。
論文 参考訳(メタデータ) (2025-01-27T18:59:57Z) - Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。
我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文 参考訳(メタデータ) (2024-10-24T01:34:11Z) - DifFRelight: Diffusion-Based Facial Performance Relighting [12.909429637057343]
拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。
我々は、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの顔画像の高忠実度化を可能にする。
このモデルは、目の反射、地表面散乱、自影、半透明といった複雑な照明効果を正確に再現する。
論文 参考訳(メタデータ) (2024-10-10T17:56:44Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Neural Video Portrait Relighting in Real-time via Consistency Modeling [41.04622998356025]
本稿では,リアルタイム,高品質,コヒーレントな映像ポートレートリライティングのためのニューラルアプローチを提案する。
エンコーダデコーダアーキテクチャにおけるハイブリッド構造と照明非絡み合いを提案する。
また,実世界における自然ポートレート光操作の照明一貫性と突然変異をモデル化する照明サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-04-01T14:13:28Z) - Learning Illumination from Diverse Portraits [8.90355885907736]
我々は,地中環境照明と組み合わせたポートレート写真を用いて,我々のモデルを訓練する。
我々は、光ステージを用いて、70種類の被験者の反射場とアルファマットを記録することにより、リッチな写真を生成する。
本手法は,ポートレートベース照明推定における最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-05T23:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。