論文の概要: LumiSculpt: A Consistency Lighting Control Network for Video Generation
- arxiv url: http://arxiv.org/abs/2410.22979v1
- Date: Wed, 30 Oct 2024 12:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:31.475888
- Title: LumiSculpt: A Consistency Lighting Control Network for Video Generation
- Title(参考訳): LumiSculpt:ビデオ生成のための一貫性照明制御ネットワーク
- Authors: Yuxin Zhang, Dandan Zheng, Biao Gong, Jingdong Chen, Ming Yang, Weiming Dong, Changsheng Xu,
- Abstract要約: ライティングは、ビデオ生成の自然性を保証する上で重要な役割を果たす。
独立的でコヒーレントな照明特性を分離し、モデル化することは依然として困難である。
LumiSculptは、T2V生成モデルにおける正確で一貫した照明制御を可能にする。
- 参考スコア(独自算出の注目度): 67.48791242688493
- License:
- Abstract: Lighting plays a pivotal role in ensuring the naturalness of video generation, significantly influencing the aesthetic quality of the generated content. However, due to the deep coupling between lighting and the temporal features of videos, it remains challenging to disentangle and model independent and coherent lighting attributes, limiting the ability to control lighting in video generation. In this paper, inspired by the established controllable T2I models, we propose LumiSculpt, which, for the first time, enables precise and consistent lighting control in T2V generation models.LumiSculpt equips the video generation with strong interactive capabilities, allowing the input of custom lighting reference image sequences. Furthermore, the core learnable plug-and-play module of LumiSculpt facilitates remarkable control over lighting intensity, position, and trajectory in latent video diffusion models based on the advanced DiT backbone.Additionally, to effectively train LumiSculpt and address the issue of insufficient lighting data, we construct LumiHuman, a new lightweight and flexible dataset for portrait lighting of images and videos. Experimental results demonstrate that LumiSculpt achieves precise and high-quality lighting control in video generation.
- Abstract(参考訳): ライティングはビデオ生成の自然性を保証する上で重要な役割を担い、生成したコンテンツの美的品質に大きな影響を及ぼす。
しかし, 映像の時間的特徴と光の深い結合により, 独立性とコヒーレントな照明特性を分離・モデル化することは困難であり, 映像生成における照明の制御能力は制限されている。
本稿では,既存の制御可能なT2IモデルにインスパイアされたLumiSculptを提案する。このLumiSculptは,T2V生成モデルにおいて,高精度かつ一貫した照明制御を実現する。
さらに、LumiSculptのコア学習可能なプラグアンドプレイモジュールは、高度なDiTバックボーンに基づく遅延ビデオ拡散モデルにおける光強度、位置、軌跡の顕著な制御を促進するとともに、LumiSculptを効果的に訓練し、照明データの不十分な問題に対処するために、画像やビデオのポートレートライティングのための新しい軽量で柔軟なデータセットであるLumiHumanを構築した。
実験により,LumiSculptは映像生成において高精度かつ高品質な照明制御を実現することが示された。
関連論文リスト
- DifFRelight: Diffusion-Based Facial Performance Relighting [12.909429637057343]
拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。
我々は、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの顔画像の高忠実度化を可能にする。
このモデルは、目の反射、地表面散乱、自影、半透明といった複雑な照明効果を正確に再現する。
論文 参考訳(メタデータ) (2024-10-10T17:56:44Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [69.96398489841116]
フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。
Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
論文 参考訳(メタデータ) (2024-05-09T17:35:16Z) - LightIt: Illumination Modeling and Control for Diffusion Models [61.80461416451116]
我々は、画像生成のための明示的な照明制御方法であるLightItを紹介する。
最近の生成法では照明制御が欠如しており、画像生成の多くの芸術的側面に不可欠である。
本手法は、制御可能で一貫した照明による画像生成を可能にする最初の方法である。
論文 参考訳(メタデータ) (2024-03-15T18:26:33Z) - Relightable Neural Actor with Intrinsic Decomposition and Pose Control [80.06094206522668]
提案するRelightable Neural Actorは、ポーズ駆動型ニューラルヒューマンモデルを学ぶための新しいビデオベース手法である。
トレーニングのためには、既知のが静的な照明条件下での人間のマルチビュー記録のみを必要とする。
実世界のシナリオにおける我々のアプローチを評価するため、屋内と屋外の異なる光条件下で記録された4つのアイデンティティを持つ新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-12-18T14:30:13Z) - Personalized Video Relighting With an At-Home Light Stage [0.0]
我々は,高品質で時間的に一貫した映像をリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを開発した。
モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。
論文 参考訳(メタデータ) (2023-11-15T10:33:20Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Controllable Data Augmentation Through Deep Relighting [75.96144853354362]
我々は、既存のモデルが照度変化に不変である能力を改善するために、リライトを通じて様々な画像データセットを拡大する方法を探る。
我々は,エンコーダ・デコーダネットワークをベースとして,様々な入力シーンの照明の様々なバリエーションを迅速に生成できるツールを開発した。
パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライゼーションベンチマークでより高いパフォーマンスを実現することが可能であることを実証した。
論文 参考訳(メタデータ) (2021-10-26T20:02:51Z) - Neural Video Portrait Relighting in Real-time via Consistency Modeling [41.04622998356025]
本稿では,リアルタイム,高品質,コヒーレントな映像ポートレートリライティングのためのニューラルアプローチを提案する。
エンコーダデコーダアーキテクチャにおけるハイブリッド構造と照明非絡み合いを提案する。
また,実世界における自然ポートレート光操作の照明一貫性と突然変異をモデル化する照明サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-04-01T14:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。