論文の概要: Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2312.06640v1
- Date: Mon, 11 Dec 2023 18:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:21:35.218581
- Title: Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution
- Title(参考訳): アップスケール・ア・ビデオ:リアルタイムビデオ超解法のための時間連続拡散モデル
- Authors: Shangchen Zhou, Peiqing Yang, Jianyi Wang, Yihang Luo, Chen Change Loy
- Abstract要約: Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
- 参考スコア(独自算出の注目度): 65.91317390645163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based diffusion models have exhibited remarkable success in generation
and editing, showing great promise for enhancing visual content with their
generative prior. However, applying these models to video super-resolution
remains challenging due to the high demands for output fidelity and temporal
consistency, which is complicated by the inherent randomness in diffusion
models. Our study introduces Upscale-A-Video, a text-guided latent diffusion
framework for video upscaling. This framework ensures temporal coherence
through two key mechanisms: locally, it integrates temporal layers into U-Net
and VAE-Decoder, maintaining consistency within short sequences; globally,
without training, a flow-guided recurrent latent propagation module is
introduced to enhance overall video stability by propagating and fusing latent
across the entire sequences. Thanks to the diffusion paradigm, our model also
offers greater flexibility by allowing text prompts to guide texture creation
and adjustable noise levels to balance restoration and generation, enabling a
trade-off between fidelity and quality. Extensive experiments show that
Upscale-A-Video surpasses existing methods in both synthetic and real-world
benchmarks, as well as in AI-generated videos, showcasing impressive visual
realism and temporal consistency.
- Abstract(参考訳): テキストベースの拡散モデルは、生成と編集において顕著な成功を収めており、生成前の視覚的コンテンツを向上する大きな可能性を秘めている。
しかし, 拡散モデルの固有ランダム性が複雑であるため, 出力忠実性や時間的一貫性が要求されるため, ビデオ超解像へのモデルの適用は依然として困難である。
本研究は,ビデオアップスケーリングのためのテキスト誘導遅延拡散フレームワークであるUpscale-A-Videoを紹介する。
このフレームワークは、時間的階層をU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持するという2つの主要なメカニズムを通じて、時間的コヒーレンスを保証する。
拡散パラダイムにより、テキストプロンプトによりテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを保ち、忠実性と品質のトレードオフを可能にすることにより、柔軟性も向上する。
大規模な実験によると、Upscale-A-Videoは、人工的および現実世界のベンチマークとAI生成ビデオの両方で既存の方法を超えており、印象的なビジュアルリアリズムと時間的一貫性を示している。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - DiffVSR: Enhancing Real-World Video Super-Resolution with Diffusion Models for Advanced Visual Quality and Temporal Consistency [25.756755602342942]
実世界のビデオ超解像のための拡散型フレームワークであるDiffVSRを提案する。
シーケンス内コヒーレンスのために,マルチスケールの時間的アテンションモジュールと時間的拡張型VAEデコーダを開発した。
本稿では, 単純な分解から複雑な分解へ移行し, 堅牢な最適化を実現するプログレッシブ・ラーニング・ストラテジーを提案する。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion [22.988212617368095]
本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。
Global-Local Collaborative Denoisingを確立することで、長いビデオDenoisingプロセスをモデル化する。
また,ビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-01-08T05:49:39Z) - STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [42.859188375578604]
画像拡散モデルは、GAN法における過平滑化問題に対処するために、実世界のビデオ超解像に適応している。
これらのモデルは静的イメージでトレーニングされるため、時間的一貫性を維持するのに苦労する。
我々は,現実的な空間的詳細と強靭な時間的整合性を達成し,T2Vモデルを現実の超解像に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:36:21Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。