論文の概要: OS-DiffVSR: Towards One-step Latent Diffusion Model for High-detailed Real-world Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2509.16507v1
- Date: Sat, 20 Sep 2025 03:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.827503
- Title: OS-DiffVSR: Towards One-step Latent Diffusion Model for High-detailed Real-world Video Super-Resolution
- Title(参考訳): OS-DiffVSR:高精細実世界の超解像のための1段階遅延拡散モデルに向けて
- Authors: Hanting Li, Huaao Tang, Jianhong Han, Tianxiong Zhou, Jiulong Cui, Haizhen Xie, Yan Chen, Jie Hu,
- Abstract要約: 実世界の超解像(OS-DiffVSR)に対するワンステップ拡散モデルを提案する。
具体的には、合成ビデオの品質を大幅に向上させる、隣接するフレーム対逆訓練パラダイムを考案する。
- 参考スコア(独自算出の注目度): 11.859297492802456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, latent diffusion models has demonstrated promising performance in real-world video super-resolution (VSR) task, which can reconstruct high-quality videos from distorted low-resolution input through multiple diffusion steps. Compared to image super-resolution (ISR), VSR methods needs to process each frame in a video, which poses challenges to its inference efficiency. However, video quality and inference efficiency have always been a trade-off for the diffusion-based VSR methods. In this work, we propose One-Step Diffusion model for real-world Video Super-Resolution, namely OS-DiffVSR. Specifically, we devise a novel adjacent frame adversarial training paradigm, which can significantly improve the quality of synthetic videos. Besides, we devise a multi-frame fusion mechanism to maintain inter-frame temporal consistency and reduce the flicker in video. Extensive experiments on several popular VSR benchmarks demonstrate that OS-DiffVSR can even achieve better quality than existing diffusion-based VSR methods that require dozens of sampling steps.
- Abstract(参考訳): 近年,複数の拡散ステップを通した低解像度入力から高画質映像を再構成できる実世界のビデオ超解像(VSR)タスクにおいて,遅延拡散モデルが有望な性能を示した。
画像超解像(ISR)と比較して、VSR法は各フレームをビデオで処理する必要がある。
しかしながら、ビデオの品質と推論効率は常に拡散ベースのVSR手法のトレードオフである。
そこで本研究では,実世界のビデオスーパーリゾリューション(OS-DiffVSR)のためのワンステップ拡散モデルを提案する。
具体的には、合成ビデオの品質を大幅に向上させる、隣接するフレーム対逆訓練パラダイムを考案する。
さらに,フレーム間の時間的一貫性を保ち,ビデオ中のフリックを低減できるマルチフレーム融合機構を考案した。
いくつかの人気のあるVSRベンチマークでの大規模な実験は、OS-DiffVSRが数十のサンプリングステップを必要とする既存の拡散ベースのVSR法よりも優れた品質を達成できることを示した。
関連論文リスト
- DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。