論文の概要: GenLit: Reformulating Single-Image Relighting as Video Generation
- arxiv url: http://arxiv.org/abs/2412.11224v2
- Date: Thu, 05 Jun 2025 12:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.218864
- Title: GenLit: Reformulating Single-Image Relighting as Video Generation
- Title(参考訳): GenLit: ビデオ生成としての単一画像のリライティングの改革
- Authors: Shrisha Bharadwaj, Haiwen Feng, Giorgio Becherini, Victoria Abrevaya, Michael J. Black,
- Abstract要約: 我々は、映像生成モデルに光操作を行うためのグラフィックスエンジンの能力を蒸留するフレームワークであるGenLitを紹介する。
小さな合成データセットのみに微調整されたモデルが現実世界のシーンに一般化されることが分かりました。
- 参考スコア(独自算出の注目度): 41.39453794928729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manipulating the illumination of a 3D scene within a single image represents a fundamental challenge in computer vision and graphics. This problem has traditionally been addressed using inverse rendering techniques, which involve explicit 3D asset reconstruction and costly ray-tracing simulations. Meanwhile, recent advancements in visual foundation models suggest that a new paradigm could soon be possible -- one that replaces explicit physical models with networks that are trained on large amounts of image and video data. In this paper, we exploit the physical world understanding of a video diffusion model, particularly Stable Video Diffusion, to relight a single image. We introduce GenLit, a framework that distills the ability of a graphics engine to perform light manipulation into a video-generation model, enabling users to directly insert and manipulate a point light in the 3D world within a given image, and generate results directly as a video sequence. We find that a model fine-tuned on only a small synthetic dataset generalizes to real-world scenes, enabling single-image relighting with plausible and convincing shadows. Our results highlight the ability of video foundation models to capture rich information about lighting, material, and, shape and our findings indicate that such models, with minimal training, can be used to perform relighting without explicit asset reconstruction or complex ray tracing.
- Abstract(参考訳): 単一の画像内の3Dシーンの照明を操作することは、コンピュータビジョンとグラフィックスにおける根本的な課題である。
この問題は伝統的に、明示的な3Dアセット再構成と高価なレイトレーシングシミュレーションを含む逆レンダリング技術を用いて解決されてきた。
一方、最近のビジュアルファンデーションモデルの進歩は、すぐに新しいパラダイムが可能になり、大量の画像やビデオデータに基づいてトレーニングされたネットワークによって、明示的な物理モデルを置き換える可能性があることを示唆している。
本稿では,映像拡散モデル,特に安定ビデオ拡散の物理世界理解を利用して,単一画像のリライトを行う。
GenLitは、グラフィックスエンジンが映像生成モデルに光操作を行う能力を蒸留するフレームワークであり、ユーザーは与えられた画像内の3D世界の点灯を直接挿入して操作でき、その結果をビデオシーケンスとして直接生成することができる。
小さな合成データセットのみに微調整されたモデルが現実世界のシーンに一般化し、可塑性で説得力のある影でシングルイメージのリライティングを可能にすることが判明した。
本研究は,映像基礎モデルによる照明,材料,形状に関する豊富な情報を収集する能力を強調し,これらのモデルを用いて,トレーニングを最小限に行うことで,明示的なアセット再構成や複雑な光線追跡を行うことなく,リライティングを行うことができることを示すものである。
関連論文リスト
- DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。
本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-30T18:59:11Z) - 3D Object Manipulation in a Single Image using Generative Models [30.241857090353864]
拡散モデルの生成力と正確な幾何学的制御を統合する新しいフレームワークである textbfOMG3D を紹介する。
筆者らのフレームワークはまず2Dオブジェクトを3Dに変換し,幾何学レベルでのユーザ指向の修正やライフライクな動作を可能にする。
注目すべきなのは、これらのステップはすべて、NVIDIA 3090を使って行うことができることだ。
論文 参考訳(メタデータ) (2025-01-22T15:06:30Z) - Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - Texture Generation Using Graph Generative Adversarial Network And
Differentiable Rendering [0.6439285904756329]
既存の3次元メッシュモデルのための新しいテクスチャ合成は、シミュレータのフォトリアルアセット生成に向けた重要なステップである。
既存の手法は、カメラの観点からの3次元空間の投影である2次元画像空間で本質的に機能する。
本稿では,BlenderやUnreal Engineといったツールを用いて,与えられた3Dメッシュモデルに直接統合可能なテクスチャを生成可能なGGAN(Graph Generative Adversarial Network)という新しいシステムを提案する。
論文 参考訳(メタデータ) (2022-06-17T04:56:03Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Neural Reflectance Fields for Appearance Acquisition [61.542001266380375]
シーン内の任意の3次元点における体積密度, 正規および反射特性をエンコードする新しい深部シーン表現であるニューラルリフレクタンス場を提案する。
我々はこの表現を、任意の視点と光の下でニューラルリフレクタンスフィールドから画像を描画できる物理的にベースとした微分可能光線マーチングフレームワークと組み合わせる。
論文 参考訳(メタデータ) (2020-08-09T22:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。