論文の概要: Training-Free Multi-View Extension of IC-Light for Textual Position-Aware Scene Relighting
- arxiv url: http://arxiv.org/abs/2511.13684v1
- Date: Mon, 17 Nov 2025 18:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.678371
- Title: Training-Free Multi-View Extension of IC-Light for Textual Position-Aware Scene Relighting
- Title(参考訳): テキスト位置認識シーンライティングのためのICライトの学習不要マルチビュー拡張
- Authors: Jiangnan Ye, Jiedong Zhuang, Lianrui Mu, Wenjie Zheng, Jiaqi Hu, Xingze Zou, Jing Wang, Haoji Hu,
- Abstract要約: ガウススプラッティング(3DGS)による3Dシーンのテキスト誘導リライティングのためのパイプラインであるGS-Lightを紹介する。
GS-Lightは、マルチビュー入力を処理するシングルインプット拡散モデルのトレーニングフリー拡張を実装している。
室内および屋外の両方でGS-Lightを評価し,最先端のベースラインと比較した。
- 参考スコア(独自算出の注目度): 12.481640901722786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GS-Light, an efficient, textual position-aware pipeline for text-guided relighting of 3D scenes represented via Gaussian Splatting (3DGS). GS-Light implements a training-free extension of a single-input diffusion model to handle multi-view inputs. Given a user prompt that may specify lighting direction, color, intensity, or reference objects, we employ a large vision-language model (LVLM) to parse the prompt into lighting priors. Using off-the-shelf estimators for geometry and semantics (depth, surface normals, and semantic segmentation), we fuse these lighting priors with view-geometry constraints to compute illumination maps and generate initial latent codes for each view. These meticulously derived init latents guide the diffusion model to generate relighting outputs that more accurately reflect user expectations, especially in terms of lighting direction. By feeding multi-view rendered images, along with the init latents, into our multi-view relighting model, we produce high-fidelity, artistically relit images. Finally, we fine-tune the 3DGS scene with the relit appearance to obtain a fully relit 3D scene. We evaluate GS-Light on both indoor and outdoor scenes, comparing it to state-of-the-art baselines including per-view relighting, video relighting, and scene editing methods. Using quantitative metrics (multi-view consistency, imaging quality, aesthetic score, semantic similarity, etc.) and qualitative assessment (user studies), GS-Light demonstrates consistent improvements over baselines. Code and assets will be made available upon publication.
- Abstract(参考訳): 本稿では,Gaussian Splatting(3DGS)を介して表現された3Dシーンのテキスト誘導リライトのための,効率的なテキスト位置認識パイプラインであるGS-Lightを紹介する。
GS-Lightは、マルチビュー入力を処理するシングルインプット拡散モデルのトレーニングフリー拡張を実装している。
照明方向,色,強度,参照対象を指定できるユーザプロンプトが与えられた場合,我々は大きな視覚言語モデル(LVLM)を用いて,そのプロンプトを照明前処理にパースする。
幾何学や意味論(深度、表面正規化、セマンティックセグメンテーション)のオフザヘルフ推定器を用いて、これらの光をビュー幾何学の制約で融合させ、照明マップを計算し、各ビューに対して初期潜時符号を生成する。
これらの厳密に導出された入射潜水剤は拡散モデルを誘導し、特に照明方向の点において、ユーザの期待をより正確に反映した照準出力を生成する。
多視点レンダリング画像と入射潜水剤を多視点リライティングモデルに投入することにより、高忠実で芸術的に依存した画像を生成する。
最後に,3DGSシーンを精巧に微調整し,完全に精巧な3Dシーンを得る。
室内と屋外の両方でGS-Lightを評価し,ビューごとのライティング,映像のライティング,シーン編集など,最先端のベースラインと比較した。
定量的メトリクス(マルチビュー整合性、画像品質、美的スコア、意味的類似性など)と質的評価(ユーザスタディ)を使用して、GS-Lightはベースラインよりも一貫した改善を示している。
コードと資産は出版時に利用可能になる。
関連論文リスト
- SplatBright: Generalizable Low-Light Scene Reconstruction from Sparse Views via Physically-Guided Gaussian Enhancement [26.905118897488077]
SplatBrightは、スパースsRGB入力からのジョイントローライト拡張と再構成のための最初の一般化可能な3Dガウスフレームワークである。
我々のキーとなる考え方は、物理的に誘導された照明モデリングと幾何学的外観の疎結合を統合して、一貫した低照度再構成を行うことである。
SplatBright は2D と 3D の両方の手法と比較して、目立たない低照度シーンに優れた新規ビュー合成、クロスビュー一貫性、そしてより良い一般化を実現している。
論文 参考訳(メタデータ) (2025-12-21T09:06:16Z) - Relightable Holoported Characters: Capturing and Relighting Dynamic Human Performance from Sparse Views [82.15089065452081]
我々は、フルボディで高ダイナミックな人間の自由視点レンダリングとリライティングのための個人固有の方法であるRelightable Holoported Characters (RHC)を提案する。
我々のトランスフォーマーベースのRelightNetは、1つのネットワークパス内での出現を予測し、コストのかかるOLATベースのキャプチャと生成を回避する。
提案手法の視覚的忠実度と照明再現性について,最先端の手法と比較して実験を行った。
論文 参考訳(メタデータ) (2025-11-29T00:17:34Z) - 3DPR: Single Image 3D Portrait Relight using Generative Priors [101.74130664920868]
3DPRは画像ベースのリライティングモデルであり、マルチビューのOne-Light-at-A-Time (OLAT)イメージから学習した生成的事前情報を活用する。
我々は,事前学習した画像データセットから学習した顔の幾何に先立ってリッチな情報を提供する,事前学習された生成ヘッドモデルの潜時空間を活用する。
我々のリフレクタンスネットワークは生成ヘッドモデルの潜在空間で動作し、比較的少数の光ステージ画像でリフレクタンスモデルを訓練することが可能である。
論文 参考訳(メタデータ) (2025-10-17T17:37:42Z) - LightSwitch: Multi-view Relighting with Material-guided Diffusion [73.5965603000002]
LightSwitchは、新しいファインチューニングされたマテリアルライティング拡散フレームワークである。
我々の2Dリライティング予測品質は、画像から直接リライティングする過去の最先端リライティングよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-08T17:59:52Z) - Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis [49.67420486373202]
GRGSは、多彩な照明条件下での高忠実なヒューマン・ノベル・ビュー・シンセサイザーのための一般的な3Dガウスのフレームワークである。
我々は, 精密深度および表面の正常度を予測するために, 合成依存データに基づいて学習した照明対応幾何微細化(LGR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:47Z) - MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation [19.46962637673285]
MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
論文 参考訳(メタデータ) (2025-05-27T17:53:02Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。
さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。
実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-07-21T16:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。