Fugu-MT 論文翻訳(概要): RelightVid: Temporal-Consistent Diffusion Model for Video Relighting

論文の概要: RelightVid: Temporal-Consistent Diffusion Model for Video Relighting

arxiv url: http://arxiv.org/abs/2501.16330v1
Date: Mon, 27 Jan 2025 18:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:04.055845
Title: RelightVid: Temporal-Consistent Diffusion Model for Video Relighting
Title（参考訳）: RelightVid:ビデオリライトのための時間一貫性拡散モデル
Authors: Ye Fang, Zeyi Sun, Shangzhan Zhang, Tong Wu, Yinghao Xu, Pan Zhang, Jiaqi Wang, Gordon Wetzstein, Dahua Lin,
Abstract要約: RelightVidはビデオのリライトのためのフレキシブルなフレームワークだ。バックグラウンドビデオ、テキストプロンプト、環境マップをリライト条件として受け入れることができる。内在的な分解を伴わずに、時間的整合性の高い任意のビデオリライティングを実現する。
参考スコア（独自算出の注目度）: 95.10341081549129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have demonstrated remarkable success in image generation and editing, with recent advancements enabling albedo-preserving image relighting. However, applying these models to video relighting remains challenging due to the lack of paired video relighting datasets and the high demands for output fidelity and temporal consistency, further complicated by the inherent randomness of diffusion models. To address these challenges, we introduce RelightVid, a flexible framework for video relighting that can accept background video, text prompts, or environment maps as relighting conditions. Trained on in-the-wild videos with carefully designed illumination augmentations and rendered videos under extreme dynamic lighting, RelightVid achieves arbitrary video relighting with high temporal consistency without intrinsic decomposition while preserving the illumination priors of its image backbone.
Abstract（参考訳）: 拡散モデルは画像生成と編集において顕著な成功を収めており、最近の進歩によりアルベド保存画像のリライトが可能になった。しかし、これらのモデルをビデオリライティングに適用することは、ペア化されたビデオリライティングデータセットの欠如と、拡散モデル固有のランダム性により、出力の忠実度と時間的一貫性に対する高い要求により、依然として困難である。これらの課題に対処するために、バックグラウンドビデオ、テキストプロンプト、環境マップをリライト条件として受け入れることのできる、ビデオリライトのためのフレキシブルなフレームワークであるRelightVidを紹介した。 RelightVidは、微妙にデザインされた照明の強化と、極端なダイナミックな照明下でレンダリングされたビデオで訓練されている。

関連論文リスト

Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset [33.388553876200795]
我々はLux Post Factoを紹介した。これは光リアリスティックと時間的に一貫した照明効果を両立させる新しいポートレートビデオライティング手法である。提案手法では,静的表現OLATデータと画像内パフォーマンスビデオを組み合わせたハイブリッドデータセットを用いて,ライティングと時間的モデリングを共同で学習する。
論文参考訳（メタデータ） (2025-03-18T17:55:22Z)
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion [52.420894727186216]
Light-A-Videoは、時間的にスムーズなビデオリライティングを実現するためのトレーニング不要のアプローチである。 Light-A-Videoは、画像のリライティングモデルに適応して、照明の一貫性を高める2つの重要な技術を導入している。
論文参考訳（メタデータ） (2025-02-12T17:24:19Z)
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT [98.56372305225271]
Lumina-Nextは、Next-DiTによる画像生成において、例外的なパフォーマンスを実現している。 Lumina-VideoにはマルチスケールのNext-DiTアーキテクチャが組み込まれており、複数のパッチを共同で学習している。本稿では,Next-DiTに基づく音声合成モデルであるLumina-V2Aを提案する。
論文参考訳（メタデータ） (2025-02-10T18:58:11Z)
LumiSculpt: A Consistency Lighting Control Network for Video Generation [67.48791242688493]
ライティングは、ビデオ生成の自然性を保証する上で重要な役割を果たす。独立的でコヒーレントな照明特性を分離し、モデル化することは依然として困難である。 LumiSculptは、T2V生成モデルにおける正確で一貫した照明制御を可能にする。
論文参考訳（メタデータ） (2024-10-30T12:44:08Z)
Real-time 3D-aware Portrait Video Relighting [89.41078798641732]
ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
論文参考訳（メタデータ） (2024-10-24T01:34:11Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Personalized Video Relighting With an At-Home Light Stage [0.0]
我々は,高品質で時間的に一貫した映像をリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを開発した。モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。
論文参考訳（メタデータ） (2023-11-15T10:33:20Z)
Diffusion in the Dark: A Diffusion Model for Low-Light Text Recognition [78.50328335703914]
ディフュージョン・イン・ザ・ダーク (Diffusion in the Dark, DiD) は、テキスト認識のための低照度画像再構成のための拡散モデルである。実画像上での低照度テキスト認識において,Digital DiDがSOTAの低照度手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-07T23:52:51Z)
Neural Video Portrait Relighting in Real-time via Consistency Modeling [41.04622998356025]
本稿では,リアルタイム,高品質,コヒーレントな映像ポートレートリライティングのためのニューラルアプローチを提案する。エンコーダデコーダアーキテクチャにおけるハイブリッド構造と照明非絡み合いを提案する。また,実世界における自然ポートレート光操作の照明一貫性と突然変異をモデル化する照明サンプリング戦略を提案する。
論文参考訳（メタデータ） (2021-04-01T14:13:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。