論文の概要: UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
- arxiv url: http://arxiv.org/abs/2511.01678v1
- Date: Mon, 03 Nov 2025 15:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.313364
- Title: UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
- Title(参考訳): UniLumos:物理学的なフィードバックによる高速で統一された画像とビデオのリライティング
- Authors: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang,
- Abstract要約: 画像とビデオの両方に統一されたリライトフレームワークUniLumosを提案する。
我々は、照明効果をシーン構造と明確に一致させ、物理的妥当性を高める。
実験により、UniLumosは物理的な一貫性を大幅に改善して最先端のリライトを実現している。
- 参考スコア(独自算出の注目度): 31.03901228901908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relighting is a crucial task with both practical demand and artistic value, and recent diffusion models have shown strong potential by enabling rich and controllable lighting effects. However, as they are typically optimized in semantic latent space, where proximity does not guarantee physical correctness in visual space, they often produce unrealistic results, such as overexposed highlights, misaligned shadows, and incorrect occlusions. We address this with UniLumos, a unified relighting framework for both images and videos that brings RGB-space geometry feedback into a flow matching backbone. By supervising the model with depth and normal maps extracted from its outputs, we explicitly align lighting effects with the scene structure, enhancing physical plausibility. Nevertheless, this feedback requires high-quality outputs for supervision in visual space, making standard multi-step denoising computationally expensive. To mitigate this, we employ path consistency learning, allowing supervision to remain effective even under few-step training regimes. To enable fine-grained relighting control and supervision, we design a structured six-dimensional annotation protocol capturing core illumination attributes. Building upon this, we propose LumosBench, a disentangled attribute-level benchmark that evaluates lighting controllability via large vision-language models, enabling automatic and interpretable assessment of relighting precision across individual dimensions. Extensive experiments demonstrate that UniLumos achieves state-of-the-art relighting quality with significantly improved physical consistency, while delivering a 20x speedup for both image and video relighting. Code is available at https://github.com/alibaba-damo-academy/Lumos-Custom.
- Abstract(参考訳): 照明は実用的需要と芸術的価値の両方において重要な課題であり、近年の拡散モデルは、リッチで制御可能な照明効果を有効化することによって、強力な可能性を示している。
しかし、それらは一般的に、視覚空間における物理的正しさを保証しないセマンティック潜在空間において最適化されているため、過剰に露呈されたハイライト、不整合影、不正なオクルージョンなどの非現実的な結果をもたらすことが多い。
UniLumosは、画像とビデオの両方のための統一されたリライトフレームワークで、RGB空間の幾何学的フィードバックをフローマッチングバックボーンにもたらす。
出力から抽出した深度と正規マップでモデルを監視することにより、照明効果をシーン構造と明確に一致させ、物理的妥当性を高める。
それでも、このフィードバックは視覚空間の監督のために高品質な出力を必要とするため、標準的なマルチステップの計算処理は高価である。
これを軽減するため、我々は経路整合性学習を採用し、数段階の訓練体制下においても監督が有効であるようにした。
微粒な照明制御と監視を可能にするため、コア照明特性をキャプチャする構造化された6次元アノテーションプロトコルを設計する。
これに基づいて,大きな視覚言語モデルによる照明制御性を評価し,各次元の照明精度を自動的かつ解釈可能な評価を可能にする,アンタングル型属性レベルベンチマークであるLumosBenchを提案する。
大規模な実験により、UniLumosは物理的な一貫性を大幅に改善し、画像とビデオのリライトの20倍のスピードアップを実現している。
コードはhttps://github.com/alibaba-damo-academy/Lumos-Custom.comから入手できる。
関連論文リスト
- TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer [47.22201704648345]
照明とテクスチャ編集はワールド・トゥ・ワールド・トランスファーにとって重要な次元である。
既存の技術は、ビデオのリライティングモデルや条件付き世界生成モデルなどのトランスファーを実現するために、入力ビデオを生成的に再レンダリングする。
我々はこれらの問題を克服するための新しい生成計算であるTC-Lightを提案する。
論文 参考訳(メタデータ) (2025-06-23T17:59:58Z) - LumiSculpt: Enabling Consistent Portrait Lighting in Video Generation [87.95655555555264]
ライティングは、ビデオ生成の自然性と美的品質を保証する上で重要な役割を担っている。
LumiSculptは、T2V生成モデルにおける正確で一貫した照明制御を可能にする。
LumiHumanは、画像やビデオのポートレートライティングのための新しいデータセットだ。
論文 参考訳(メタデータ) (2024-10-30T12:44:08Z) - Zero-Reference Low-Light Enhancement via Physical Quadruple Priors [58.77377454210244]
本稿では,標準光画像のみをトレーニング可能な,ゼロ参照低光強調フレームワークを提案する。
このフレームワークは、画像にさかのぼる照明不変性を復元し、自動的に低照度化を実現します。
論文 参考訳(メタデータ) (2024-03-19T17:36:28Z) - Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - Personalized Video Relighting With an At-Home Light Stage [0.0]
我々は,高品質で時間的に一貫した映像をリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを開発した。
モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。
論文 参考訳(メタデータ) (2023-11-15T10:33:20Z) - RelightableHands: Efficient Neural Relighting of Articulated Hand Models [46.60594572471557]
我々は、新しい照明下でリアルタイムにアニメーションできる高忠実度パーソナライズドハンドをレンダリングするための、最初のニューラルリライティング手法を提案する。
本手法では,教師が1点当たりの外観を,ライトステージで撮影した画像から学習する。
教師モデルによって表現されたイメージをトレーニングデータとして利用することにより,学生モデルは自然照度下での外観を直接リアルタイムで予測する。
論文 参考訳(メタデータ) (2023-02-09T18:59:48Z) - Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised
Adaptation [36.050270650417325]
ハイレベルビジョンのための学習可能な照明強調モデルを提案する。
実際のカメラ応答関数にインスパイアされた照明強調関数は凹凸曲線であると仮定する。
我々のモデルアーキテクチャとトレーニングデザインは相互に恩恵を受け、強力な教師なし正規-低照度適応フレームワークを形成する。
論文 参考訳(メタデータ) (2022-10-07T19:32:55Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Relighting Images in the Wild with a Self-Supervised Siamese
Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。
この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。
Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-12-11T16:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。