論文の概要: LuxDiT: Lighting Estimation with Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2509.03680v1
- Date: Wed, 03 Sep 2025 19:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.959787
- Title: LuxDiT: Lighting Estimation with Video Diffusion Transformer
- Title(参考訳): LuxDiT:ビデオ拡散変換器による照明推定
- Authors: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang,
- Abstract要約: 単一の画像やビデオからシーンライティングを推定することは、コンピュータビジョンとグラフィックスにおいて長年の課題である。
本稿では,映像拡散変換器を微調整し,視覚入力を前提としたHDR環境マップを生成するLuxDiTを提案する。
- 参考スコア(独自算出の注目度): 66.60450792095901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating scene lighting from a single image or video remains a longstanding challenge in computer vision and graphics. Learning-based approaches are constrained by the scarcity of ground-truth HDR environment maps, which are expensive to capture and limited in diversity. While recent generative models offer strong priors for image synthesis, lighting estimation remains difficult due to its reliance on indirect visual cues, the need to infer global (non-local) context, and the recovery of high-dynamic-range outputs. We propose LuxDiT, a novel data-driven approach that fine-tunes a video diffusion transformer to generate HDR environment maps conditioned on visual input. Trained on a large synthetic dataset with diverse lighting conditions, our model learns to infer illumination from indirect visual cues and generalizes effectively to real-world scenes. To improve semantic alignment between the input and the predicted environment map, we introduce a low-rank adaptation finetuning strategy using a collected dataset of HDR panoramas. Our method produces accurate lighting predictions with realistic angular high-frequency details, outperforming existing state-of-the-art techniques in both quantitative and qualitative evaluations.
- Abstract(参考訳): 単一の画像やビデオからシーンライティングを推定することは、コンピュータビジョンとグラフィックスにおいて長年の課題である。
学習に基づくアプローチは、多様性を捉えるのに高価で制限された、地道なHDR環境マップの不足によって制約される。
最近の生成モデルは画像合成に強い先行性を提供するが、間接的な視覚的手がかりへの依存、グローバルな(非局所的な)文脈の推測の必要性、高ダイナミックレンジ出力の回復などにより、照明推定は依然として困難である。
本稿では,映像拡散変換器を微調整し,視覚入力を前提としたHDR環境マップを生成するLuxDiTを提案する。
多様な照明条件を持つ大規模な合成データセットに基づいて,間接的な視覚的手がかりから照明を推定し,現実のシーンに効果的に一般化する。
入力と予測環境マップのセマンティックアライメントを改善するために,HDRパノラマの収集したデータセットを用いた低ランク適応微調整戦略を導入する。
提案手法は, 実測および定性的評価において, 既存の最先端技術よりも高い精度で, 現実的な角状高周波の精度で正確な照明予測を行う。
関連論文リスト
- BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - BVI-Lowlight: Fully Registered Benchmark Dataset for Low-Light Video Enhancement [44.1973928137492]
本稿では,2つの低照度条件下での様々な動きシナリオにおける40のシーンからなる,新しい低照度映像データセットを提案する。
我々は、プログラム可能な電動ドリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供する。
画像ベースのポストプロセッシングによりそれらを洗練し、異なる光レベルにおけるフレームの画素ワイドアライメントを保証する。
論文 参考訳(メタデータ) (2024-02-03T00:40:22Z) - Spatiotemporally Consistent HDR Indoor Lighting Estimation [66.26786775252592]
本研究では,屋内照明推定問題を解決するための物理動機付きディープラーニングフレームワークを提案する。
深度マップを用いた1枚のLDR画像から,任意の画像位置における空間的に一貫した照明を予測できる。
我々のフレームワークは、最先端の単一画像やビデオベースの手法と比較して、高画質で光リアリスティック照明予測を実現する。
論文 参考訳(メタデータ) (2023-05-07T20:36:29Z) - TensoIR: Tensorial Inverse Rendering [51.57268311847087]
テンソルIRはテンソル分解とニューラルフィールドに基づく新しい逆レンダリング手法である。
TensoRFは、放射場モデリングのための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-04-24T21:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。