論文の概要: Yesnt: Are Diffusion Relighting Models Ready for Capture Stage Compositing? A Hybrid Alternative to Bridge the Gap
- arxiv url: http://arxiv.org/abs/2510.23494v1
- Date: Mon, 27 Oct 2025 16:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.61894
- Title: Yesnt: Are Diffusion Relighting Models Ready for Capture Stage Compositing? A Hybrid Alternative to Bridge the Gap
- Title(参考訳): Yesnt:Deffusion Relighting Models Ready for Capture Stage Compositing? : ギャップを橋渡しするためのハイブリッドな代替手段
- Authors: Elisabeth Jüttner, Leona Krath, Stefan Korfhage, Hannah Dröge, Matthias B. Hullin, Markus Plack,
- Abstract要約: キャプチャされたパフォーマンスを仮想世界に持ち込むには、ボリュームビデオのリライティングが不可欠だ。
現在のアプローチでは、時間的に安定し、生産可能な結果を提供するのに苦労しています。
本稿では,素材先行と時間的正規化と物理的動機付けレンダリングを組み合わせたハイブリッドリライトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.371167094244402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric video relighting is essential for bringing captured performances into virtual worlds, but current approaches struggle to deliver temporally stable, production-ready results. Diffusion-based intrinsic decomposition methods show promise for single frames, yet suffer from stochastic noise and instability when extended to sequences, while video diffusion models remain constrained by memory and scale. We propose a hybrid relighting framework that combines diffusion-derived material priors with temporal regularization and physically motivated rendering. Our method aggregates multiple stochastic estimates of per-frame material properties into temporally consistent shading components, using optical-flow-guided regularization. For indirect effects such as shadows and reflections, we extract a mesh proxy from Gaussian Opacity Fields and render it within a standard graphics pipeline. Experiments on real and synthetic captures show that this hybrid strategy achieves substantially more stable relighting across sequences than diffusion-only baselines, while scaling beyond the clip lengths feasible for video diffusion. These results indicate that hybrid approaches, which balance learned priors with physically grounded constraints, are a practical step toward production-ready volumetric video relighting.
- Abstract(参考訳): ボリュームビデオのリライティングは、キャプチャされたパフォーマンスを仮想世界に持ち込む上で不可欠だが、現在のアプローチでは、時間的に安定し、プロダクション対応の結果を提供するのに苦労している。
拡散に基づく内在的分解法は単一フレームを約束するが、連続に拡張した場合の確率的ノイズや不安定さに悩まされる一方、ビデオ拡散モデルはメモリとスケールによって制約される。
本稿では,拡散媒質の先行と時間的正規化と物理的動機付けレンダリングを組み合わせたハイブリッドリライトフレームワークを提案する。
本手法は,光フロー誘導正則化を用いて,フレーム単位の材料特性の確率的推定値を時間的に一貫したシェーディング成分に集約する。
シャドーやリフレクションなどの間接効果を得るためには、ガウスのOpacity Fieldsからメッシュプロキシを抽出し、標準的なグラフィックスパイプラインでレンダリングする。
実画像と合成画像の実験により、このハイブリッド戦略は、拡散のみのベースラインよりも、シーケンス間でのライティングをかなり安定に達成し、ビデオ拡散のためにクリップ長を超えてスケーリングできることが示されている。
これらの結果は,事前学習と物理的制約のバランスをとるハイブリッドアプローチが,実運用対応のボリュームビデオリライティングへの実践的な一歩であることを示唆している。
関連論文リスト
- ReLumix: Extending Image Relighting to Video via Video Diffusion Models [5.890782804843724]
ビデオのポストプロダクション中に照明を制御することは、計算写真において重要な目標である。
本稿では、時間合成からリライトを分離する新しいフレームワークであるReLumixを紹介する。
ReLumixは、合成データに基づいて訓練されているが、実世界のビデオに対する競争上の一般化を示している。
論文 参考訳(メタデータ) (2025-09-28T09:35:33Z) - POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models [18.761042377485367]
POSE(Phased One-Step Equilibrium)は、大規模ビデオ拡散モデルのサンプリングステップを削減する蒸留フレームワークである。
PSEはVBench-I2V上の他の加速度法よりもセマンティックアライメント,時間的会議,フレーム品質が平均7.15%向上していることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:20:01Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。