論文の概要: RelightVid: Temporal-Consistent Diffusion Model for Video Relighting
- arxiv url: http://arxiv.org/abs/2501.16330v1
- Date: Mon, 27 Jan 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:01.822711
- Title: RelightVid: Temporal-Consistent Diffusion Model for Video Relighting
- Title(参考訳): RelightVid:ビデオリライトのための時間一貫性拡散モデル
- Authors: Ye Fang, Zeyi Sun, Shangzhan Zhang, Tong Wu, Yinghao Xu, Pan Zhang, Jiaqi Wang, Gordon Wetzstein, Dahua Lin,
- Abstract要約: RelightVidはビデオのリライトのためのフレキシブルなフレームワークだ。
バックグラウンドビデオ、テキストプロンプト、環境マップをリライト条件として受け入れることができる。
内在的な分解を伴わずに、時間的整合性の高い任意のビデオリライティングを実現する。
- 参考スコア(独自算出の注目度): 95.10341081549129
- License:
- Abstract: Diffusion models have demonstrated remarkable success in image generation and editing, with recent advancements enabling albedo-preserving image relighting. However, applying these models to video relighting remains challenging due to the lack of paired video relighting datasets and the high demands for output fidelity and temporal consistency, further complicated by the inherent randomness of diffusion models. To address these challenges, we introduce RelightVid, a flexible framework for video relighting that can accept background video, text prompts, or environment maps as relighting conditions. Trained on in-the-wild videos with carefully designed illumination augmentations and rendered videos under extreme dynamic lighting, RelightVid achieves arbitrary video relighting with high temporal consistency without intrinsic decomposition while preserving the illumination priors of its image backbone.
- Abstract(参考訳): 拡散モデルは画像生成と編集において顕著な成功を収めており、最近の進歩によりアルベド保存画像のリライトが可能になった。
しかし、これらのモデルをビデオリライティングに適用することは、ペア化されたビデオリライティングデータセットの欠如と、拡散モデル固有のランダム性により、出力の忠実度と時間的一貫性に対する高い要求により、依然として困難である。
これらの課題に対処するために、バックグラウンドビデオ、テキストプロンプト、環境マップをリライト条件として受け入れることのできる、ビデオリライトのためのフレキシブルなフレームワークであるRelightVidを紹介した。
RelightVidは、微妙にデザインされた照明の強化と、極端なダイナミックな照明下でレンダリングされたビデオで訓練されている。
関連論文リスト
- LumiSculpt: A Consistency Lighting Control Network for Video Generation [67.48791242688493]
ライティングは、ビデオ生成の自然性を保証する上で重要な役割を果たす。
独立的でコヒーレントな照明特性を分離し、モデル化することは依然として困難である。
LumiSculptは、T2V生成モデルにおける正確で一貫した照明制御を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:44:08Z) - Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。
我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文 参考訳(メタデータ) (2024-10-24T01:34:11Z) - DifFRelight: Diffusion-Based Facial Performance Relighting [12.909429637057343]
拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。
我々は、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの顔画像の高忠実度化を可能にする。
このモデルは、目の反射、地表面散乱、自影、半透明といった複雑な照明効果を正確に再現する。
論文 参考訳(メタデータ) (2024-10-10T17:56:44Z) - BlazeBVD: Make Scale-Time Equalization Great Again for Blind Video
Deflickering [13.476629715971221]
高精細度・高速ブラインドビデオデクリッカリングのためのヒストグラム支援ソリューションBlazeBVDを導入する。
BlazeBVDはSTEフィルタ内のスムーズな照明ヒストグラムを用いて、時間データ学習の難しさを緩和する。
推論速度は最先端の10倍にも達する。
論文 参考訳(メタデータ) (2024-03-10T15:56:55Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Personalized Video Relighting With an At-Home Light Stage [0.0]
我々は,高品質で時間的に一貫した映像をリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを開発した。
モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。
論文 参考訳(メタデータ) (2023-11-15T10:33:20Z) - Diffusion in the Dark: A Diffusion Model for Low-Light Text Recognition [78.50328335703914]
ディフュージョン・イン・ザ・ダーク (Diffusion in the Dark, DiD) は、テキスト認識のための低照度画像再構成のための拡散モデルである。
実画像上での低照度テキスト認識において,Digital DiDがSOTAの低照度手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-07T23:52:51Z) - Neural Video Portrait Relighting in Real-time via Consistency Modeling [41.04622998356025]
本稿では,リアルタイム,高品質,コヒーレントな映像ポートレートリライティングのためのニューラルアプローチを提案する。
エンコーダデコーダアーキテクチャにおけるハイブリッド構造と照明非絡み合いを提案する。
また,実世界における自然ポートレート光操作の照明一貫性と突然変異をモデル化する照明サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-04-01T14:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。