論文の概要: Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
- arxiv url: http://arxiv.org/abs/2508.12945v1
- Date: Mon, 18 Aug 2025 14:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.372198
- Title: Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
- Title(参考訳): Lumen: ビデオ生成モデルによる一貫性のあるビデオリライティングと調和したバックグラウンドリプレース
- Authors: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan,
- Abstract要約: 本稿では,大規模ビデオ生成モデルを用いたエンドツーエンドのビデオリライトフレームワークであるLumenを提案する。
合成ドメインでは、高度な3Dレンダリングエンジンを活用し、多様な環境でビデオペアをキュレートする。
現実的な領域では、HDRベースの照明シミュレーションを適用して、ペアの内蔵ビデオの欠如を補う。
- 参考スコア(独自算出の注目度): 18.008901495139717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video relighting is a challenging yet valuable task, aiming to replace the background in videos while correspondingly adjusting the lighting in the foreground with harmonious blending. During translation, it is essential to preserve the original properties of the foreground, e.g., albedo, and propagate consistent relighting among temporal frames. In this paper, we propose Lumen, an end-to-end video relighting framework developed on large-scale video generative models, receiving flexible textual description for instructing the control of lighting and background. Considering the scarcity of high-qualified paired videos with the same foreground in various lighting conditions, we construct a large-scale dataset with a mixture of realistic and synthetic videos. For the synthetic domain, benefiting from the abundant 3D assets in the community, we leverage advanced 3D rendering engine to curate video pairs in diverse environments. For the realistic domain, we adapt a HDR-based lighting simulation to complement the lack of paired in-the-wild videos. Powered by the aforementioned dataset, we design a joint training curriculum to effectively unleash the strengths of each domain, i.e., the physical consistency in synthetic videos, and the generalized domain distribution in realistic videos. To implement this, we inject a domain-aware adapter into the model to decouple the learning of relighting and domain appearance distribution. We construct a comprehensive benchmark to evaluate Lumen together with existing methods, from the perspectives of foreground preservation and video consistency assessment. Experimental results demonstrate that Lumen effectively edit the input into cinematic relighted videos with consistent lighting and strict foreground preservation. Our project page: https://lumen-relight.github.io/
- Abstract(参考訳): ビデオのリライティングは難しいが価値ある作業であり、ビデオの背景を置き換えると同時に、前景の照明を調和したブレンディングで調整することを目的としている。
翻訳中は、前景の原特性、例えば、アルベドを保存し、時間的フレーム間で一貫したリライティングを伝播させることが不可欠である。
本稿では,大規模ビデオ生成モデル上で開発したエンドツーエンドのビデオリライトフレームワークであるLumenを提案する。
様々な照明条件下で同じ前景を持つ高画質のペアビデオが不足していることを考えると,現実的かつ合成的なビデオが混在する大規模データセットを構築した。
コミュニティの豊富な3Dアセットの恩恵を受ける合成ドメインでは、高度な3Dレンダリングエンジンを活用し、多様な環境でビデオペアをキュレートします。
現実的な領域では、HDRベースの照明シミュレーションを適用して、ペアの内蔵ビデオの欠如を補う。
上記のデータセットを用いて,各領域の強度,すなわち合成ビデオにおける物理的一貫性,および現実的なビデオにおける一般化された領域分布を効果的に解き放つための共同学習カリキュラムを設計する。
これを実現するために、ドメイン対応アダプタをモデルに注入し、リライトの学習とドメインの外観分布を分離する。
我々は,前景保存と映像の整合性評価の観点から,既存の手法とともにLumenを評価するための総合的なベンチマークを構築した。
実験結果から,Lumenは撮影映像への入力を一貫した照明と厳密な前景保存で効果的に編集することを示した。
プロジェクトページ:https://lumen-relight.github.io/
関連論文リスト
- TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer [47.22201704648345]
照明とテクスチャ編集はワールド・トゥ・ワールド・トランスファーにとって重要な次元である。
既存の技術は、ビデオのリライティングモデルや条件付き世界生成モデルなどのトランスファーを実現するために、入力ビデオを生成的に再レンダリングする。
我々はこれらの問題を克服するための新しい生成計算であるTC-Lightを提案する。
論文 参考訳(メタデータ) (2025-06-23T17:59:58Z) - UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting [85.27994475113056]
我々はアルベドを共同で推定し、単一のパスで信頼出力を合成する汎用的アプローチを導入する。
本モデルは,多様な領域にまたがる強力な一般化を示し,視覚的忠実度と時間的整合性の両方において,従来の手法を超越している。
論文 参考訳(メタデータ) (2025-06-18T17:56:45Z) - IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation [79.1960960864242]
IllumiCraftは3つの補完的な入力を受け入れるエンドツーエンドの拡散フレームワークである。
ユーザの定義したプロンプトに沿った時間的に一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2025-06-03T17:59:52Z) - Light-A-Video: Training-free Video Relighting via Progressive Light Fusion [52.420894727186216]
Light-A-Videoは、時間的にスムーズなビデオリライティングを実現するためのトレーニング不要のアプローチである。
Light-A-Videoは、画像のリライティングモデルに適応して、照明の一貫性を高める2つの重要な技術を導入している。
論文 参考訳(メタデータ) (2025-02-12T17:24:19Z) - Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。
我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文 参考訳(メタデータ) (2024-10-24T01:34:11Z) - Spatiotemporally Consistent HDR Indoor Lighting Estimation [66.26786775252592]
本研究では,屋内照明推定問題を解決するための物理動機付きディープラーニングフレームワークを提案する。
深度マップを用いた1枚のLDR画像から,任意の画像位置における空間的に一貫した照明を予測できる。
我々のフレームワークは、最先端の単一画像やビデオベースの手法と比較して、高画質で光リアリスティック照明予測を実現する。
論文 参考訳(メタデータ) (2023-05-07T20:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。