論文の概要: DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2505.16239v1
- Date: Thu, 22 May 2025 05:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.05145
- Title: DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution
- Title(参考訳): DOVE: リアルタイムビデオ超解法のための効率的なワンステップ拡散モデル
- Authors: Zheng Chen, Zichen Zou, Kewei Zhang, Xiongfei Su, Xin Yuan, Yong Guo, Yulun Zhang,
- Abstract要約: 実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
- 参考スコア(独自算出の注目度): 43.83739935393097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated promising performance in real-world video super-resolution (VSR). However, the dozens of sampling steps they require, make inference extremely slow. Sampling acceleration techniques, particularly single-step, provide a potential solution. Nonetheless, achieving one step in VSR remains challenging, due to the high training overhead on video data and stringent fidelity demands. To tackle the above issues, we propose DOVE, an efficient one-step diffusion model for real-world VSR. DOVE is obtained by fine-tuning a pretrained video diffusion model (*i.e.*, CogVideoX). To effectively train DOVE, we introduce the latent-pixel training strategy. The strategy employs a two-stage scheme to gradually adapt the model to the video super-resolution task. Meanwhile, we design a video processing pipeline to construct a high-quality dataset tailored for VSR, termed HQ-VSR. Fine-tuning on this dataset further enhances the restoration capability of DOVE. Extensive experiments show that DOVE exhibits comparable or superior performance to multi-step diffusion-based VSR methods. It also offers outstanding inference efficiency, achieving up to a **28$\times$** speed-up over existing methods such as MGLD-VSR. Code is available at: https://github.com/zhengchen1999/DOVE.
- Abstract(参考訳): 拡散モデルは実世界のビデオ超解像(VSR)において有望な性能を示した。
しかし、多くのサンプリングステップが必要なため、推論は非常に遅くなります。
加速技術、特に単一ステップのサンプリングは、潜在的な解決策を提供する。
しかしながら、ビデオデータに対する高いトレーニングオーバーヘッドと厳格な忠実度要求のため、VSRの1ステップを達成することは依然として困難である。
上記の課題に対処するために,実世界のVSRのための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、予め訓練されたビデオ拡散モデル(*、*、CogVideoX)を微調整して得られる。
DOVEを効果的に訓練するために,潜在画素トレーニング戦略を導入する。
この戦略は、2段階のスキームを用いて、モデルをビデオ超解像タスクに徐々に適応させる。
一方,本研究では,HQ-VSRと呼ばれるVSRに適した高品質なデータセットを構築するために,ビデオ処理パイプラインを設計する。
このデータセットの微調整により、DOVEの復元能力はさらに向上する。
大規模な実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
また、優れた推論効率を提供し、MGLD-VSRのような既存のメソッドよりも**28$\times$*のスピードアップを実現している。
コードは、https://github.com/zhengchen 1999/DOVE.comで入手できる。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。