論文の概要: Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising
- arxiv url: http://arxiv.org/abs/2511.14719v1
- Date: Tue, 18 Nov 2025 18:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.252137
- Title: Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising
- Title(参考訳): 構造認識Denoisingによるゼロショット合成ビデオリアリズムの強化
- Authors: Yifan Wang, Liya Ji, Zhanghan Ke, Harry Yang, Ser-Nam Lim, Qifeng Chen,
- Abstract要約: 本稿では, シミュレータから合成ビデオを再レンダリングする合成ビデオリアリズムを, フォトリアリスティックな方法で拡張する手法を提案する。
本フレームワークは,合成ビデオから空間的・時間的領域の強化ビデオへの多層構造保存に重点を置いている。
- 参考スコア(独自算出の注目度): 83.09163795450407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an approach to enhancing synthetic video realism, which can re-render synthetic videos from a simulator in photorealistic fashion. Our realism enhancement approach is a zero-shot framework that focuses on preserving the multi-level structures from synthetic videos into the enhanced one in both spatial and temporal domains, built upon a diffusion video foundational model without further fine-tuning. Specifically, we incorporate an effective modification to have the generation/denoising process conditioned on estimated structure-aware information from the synthetic video, such as depth maps, semantic maps, and edge maps, by an auxiliary model, rather than extracting the information from a simulator. This guidance ensures that the enhanced videos are consistent with the original synthetic video at both the structural and semantic levels. Our approach is a simple yet general and powerful approach to enhancing synthetic video realism: we show that our approach outperforms existing baselines in structural consistency with the original video while maintaining state-of-the-art photorealism quality in our experiments.
- Abstract(参考訳): 本稿では, シミュレータから合成ビデオを再レンダリングする合成ビデオリアリズムを, フォトリアリスティックな方法で拡張する手法を提案する。
我々のリアリズム強化アプローチは、合成ビデオから空間的・時間的領域の強化ビデオへの多層構造保存に焦点を当てたゼロショットフレームワークであり、さらなる微調整をせずに拡散ビデオ基盤モデルに基づいて構築されている。
具体的には,シミュレーションから情報を取り出すのではなく,デプスマップ,セマンティックマップ,エッジマップなどの合成ビデオから推定された構造認識情報に基づいて,効率的な情報生成/デノベーション処理を補助モデルに組み込む。
このガイダンスにより、拡張されたビデオは、構造レベルと意味レベルの両方で、元の合成ビデオと一致していることが保証される。
我々のアプローチは、合成ビデオリアリズムを強化するためのシンプルで汎用的で強力なアプローチであり、我々の実験では、最先端のフォトリアリズムの質を維持しながら、元のビデオと構造的整合性において既存のベースラインよりも優れていることを示す。
関連論文リスト
- SkyReels-V3 Technique Report [23.793804843416606]
ビデオの堅牢性は、コンテキスト推論が能力の定義テストである世界モデル構築の基盤となる。
拡散変換器を用いたマルチモーダル・イン・コンテクスト学習フレームワーク上に構築した条件付きビデオ生成モデルSkyReels-V3を提案する。
SkyReels-V3モデルは、イメージ・トゥ・ビデオ合成、ビデオ・ツー・ビデオ拡張、オーディオ誘導ビデオ生成という、3つのコア生成パラダイムを単一のアーキテクチャでサポートする。
論文 参考訳(メタデータ) (2026-01-24T06:08:12Z) - Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models [18.008901495139717]
本稿では,大規模ビデオ生成モデルを用いたエンドツーエンドのビデオリライトフレームワークであるLumenを提案する。
合成ドメインでは、高度な3Dレンダリングエンジンを活用し、多様な環境でビデオペアをキュレートする。
現実的な領域では、HDRベースの照明シミュレーションを適用して、ペアの内蔵ビデオの欠如を補う。
論文 参考訳(メタデータ) (2025-08-18T14:21:22Z) - Compositional Video Synthesis by Temporal Object-Centric Learning [3.2228025627337864]
本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。
提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。
この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
論文 参考訳(メタデータ) (2025-07-28T14:11:04Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。