論文の概要: Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.15908v2
- Date: Tue, 16 Jul 2024 19:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:08:38.955822
- Title: Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models
- Title(参考訳): 拡散モデルを用いた時間連続デテール合成によるビデオ超解像の知覚品質向上
- Authors: Claudio Rota, Marco Buzzelli, Joost van de Weijer,
- Abstract要約: 本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
- 参考スコア(独自算出の注目度): 17.570136632211693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the problem of enhancing perceptual quality in video super-resolution (VSR) using Diffusion Models (DMs) while ensuring temporal consistency among frames. We present StableVSR, a VSR method based on DMs that can significantly enhance the perceptual quality of upscaled videos by synthesizing realistic and temporally-consistent details. We introduce the Temporal Conditioning Module (TCM) into a pre-trained DM for single image super-resolution to turn it into a VSR method. TCM uses the novel Temporal Texture Guidance, which provides it with spatially-aligned and detail-rich texture information synthesized in adjacent frames. This guides the generative process of the current frame toward high-quality and temporally-consistent results. In addition, we introduce the novel Frame-wise Bidirectional Sampling strategy to encourage the use of information from past to future and vice-versa. This strategy improves the perceptual quality of the results and the temporal consistency across frames. We demonstrate the effectiveness of StableVSR in enhancing the perceptual quality of upscaled videos while achieving better temporal consistency compared to existing state-of-the-art methods for VSR. The project page is available at https://github.com/claudiom4sir/StableVSR.
- Abstract(参考訳): 本稿では,フレーム間の時間的一貫性を確保しつつ,拡散モデル(DM)を用いたビデオ超解像(VSR)の知覚品質向上の問題に対処する。
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚的品質を大幅に向上させる,DMに基づくVSR手法であるStableVSRを提案する。
本稿では,TCM(Temporal Conditioning Module)を訓練済みのDMに導入し,単一画像の超解像をVSR法に変換する。
TCMは、隣接フレームで合成された空間的に整列し、詳細に富んだテクスチャ情報を提供する、新しいテンポラルテクスチャガイダンスを使用している。
これは、現在のフレームの生成過程を、高品質で時間的に一貫性のある結果へと導く。
さらに,過去から未来への情報活用を促進するために,新しいフレームワイド双方向サンプリング戦略を導入する。
この戦略は、結果の知覚的品質とフレーム間の時間的一貫性を改善する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
プロジェクトページはhttps://github.com/claudiom4sir/StableVSRで公開されている。
関連論文リスト
- DC-VSR: Spatially and Temporally Consistent Video Super-Resolution with Video Diffusion Prior [13.324336907242195]
ビデオ解像度(VSR)は、低解像度(LR)から高解像度(HR)ビデオを再構成することを目的としている。
DC-VSRは、空間的および時間的に整合したVSR結果を現実的なテクスチャで生成する。
実験により、DC-VSRは空間的にも時間的にも一貫した高品質なVSRを達成し、以前のアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-05T10:15:00Z) - DiffVSR: Enhancing Real-World Video Super-Resolution with Diffusion Models for Advanced Visual Quality and Temporal Consistency [25.756755602342942]
実世界のビデオ超解像のための拡散型フレームワークであるDiffVSRを提案する。
シーケンス内コヒーレンスのために,マルチスケールの時間的アテンションモジュールと時間的拡張型VAEデコーダを開発した。
本稿では, 単純な分解から複雑な分解へ移行し, 堅牢な最適化を実現するプログレッシブ・ラーニング・ストラテジーを提案する。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。