論文の概要: GenLit: Reformulating Single-Image Relighting as Video Generation
- arxiv url: http://arxiv.org/abs/2412.11224v1
- Date: Sun, 15 Dec 2024 15:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:21.121498
- Title: GenLit: Reformulating Single-Image Relighting as Video Generation
- Title(参考訳): GenLit: ビデオ生成としての単一画像のリライティングの改革
- Authors: Shrisha Bharadwaj, Haiwen Feng, Victoria Abrevaya, Michael J. Black,
- Abstract要約: 我々は、映像生成モデルに光操作を行うためのグラフィックスエンジンの能力を蒸留するフレームワークであるGenLitを紹介する。
我々は、小さな合成データセットのみに微調整されたモデルが、実際の画像に一般化可能であることを発見した。
- 参考スコア(独自算出の注目度): 44.409962561291216
- License:
- Abstract: Manipulating the illumination within a single image represents a fundamental challenge in computer vision and graphics. This problem has been traditionally addressed using inverse rendering techniques, which require explicit 3D asset reconstruction and costly ray tracing simulations. Meanwhile, recent advancements in visual foundation models suggest that a new paradigm could soon be practical and possible -- one that replaces explicit physical models with networks that are trained on massive amounts of image and video data. In this paper, we explore the potential of exploiting video diffusion models, and in particular Stable Video Diffusion (SVD), in understanding the physical world to perform relighting tasks given a single image. Specifically, we introduce GenLit, a framework that distills the ability of a graphics engine to perform light manipulation into a video generation model, enabling users to directly insert and manipulate a point light in the 3D world within a given image and generate the results directly as a video sequence. We find that a model fine-tuned on only a small synthetic dataset (270 objects) is able to generalize to real images, enabling single-image relighting with realistic ray tracing effects and cast shadows. These results reveal the ability of video foundation models to capture rich information about lighting, material, and shape. Our findings suggest that such models, with minimal training, can be used for physically-based rendering without explicit physically asset reconstruction and complex ray tracing. This further suggests the potential of such models for controllable and physically accurate image synthesis tasks.
- Abstract(参考訳): 単一の画像内で照明を操作することは、コンピュータビジョンとグラフィックスにおける根本的な課題である。
この問題は伝統的に3Dアセットの明示的な再構築とコストのかかるレイトレーシングシミュレーションを必要とする逆レンダリング技術を用いて解決されてきた。
一方、最近のビジュアルファンデーションモデルの進歩は、新しいパラダイムがすぐに実用的で可能になり得ることを示唆している。
本稿では,映像拡散モデル,特にSVD(Stable Video Diffusion)を活用する可能性について検討する。
具体的には、映像生成モデルにグラフィックスエンジンの光操作機能を組み込んだフレームワークであるGenLitを導入し、ユーザが所定の画像内の3D世界の点灯を直接挿入して操作し、その結果をビデオシーケンスとして直接生成することを可能にする。
小さな合成データセット(270個のオブジェクト)のみに微調整されたモデルでは、実際の画像に一般化することができ、現実的なレイトレーシング効果によるシングルイメージのリライティングや、影のキャストが可能になる。
これらの結果は、照明、材料、形状に関する豊富な情報をビデオ基礎モデルで捉えることができることを示している。
以上の結果から,これらのモデルは,トレーニングを最小限に行うことで,具体的アセット再構成や複雑な光線追跡を伴わずに,物理的なレンダリングに利用できることが示唆された。
このことは、制御可能で物理的に正確な画像合成タスクのためのそのようなモデルの可能性を示唆している。
関連論文リスト
- Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - Texture Generation Using Graph Generative Adversarial Network And
Differentiable Rendering [0.6439285904756329]
既存の3次元メッシュモデルのための新しいテクスチャ合成は、シミュレータのフォトリアルアセット生成に向けた重要なステップである。
既存の手法は、カメラの観点からの3次元空間の投影である2次元画像空間で本質的に機能する。
本稿では,BlenderやUnreal Engineといったツールを用いて,与えられた3Dメッシュモデルに直接統合可能なテクスチャを生成可能なGGAN(Graph Generative Adversarial Network)という新しいシステムを提案する。
論文 参考訳(メタデータ) (2022-06-17T04:56:03Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z) - Neural Reflectance Fields for Appearance Acquisition [61.542001266380375]
シーン内の任意の3次元点における体積密度, 正規および反射特性をエンコードする新しい深部シーン表現であるニューラルリフレクタンス場を提案する。
我々はこの表現を、任意の視点と光の下でニューラルリフレクタンスフィールドから画像を描画できる物理的にベースとした微分可能光線マーチングフレームワークと組み合わせる。
論文 参考訳(メタデータ) (2020-08-09T22:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。