論文の概要: DC-VSR: Spatially and Temporally Consistent Video Super-Resolution with Video Diffusion Prior
- arxiv url: http://arxiv.org/abs/2502.03502v1
- Date: Wed, 05 Feb 2025 10:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:29.566113
- Title: DC-VSR: Spatially and Temporally Consistent Video Super-Resolution with Video Diffusion Prior
- Title(参考訳): DC-VSR: 空間的・時間的に一貫性のあるビデオ超解像
- Authors: Janghyeok Han, Gyujin Sim, Geonung Kim, Hyunseung Lee, Kyuha Choi, Youngseok Han, Sunghyun Cho,
- Abstract要約: ビデオ解像度(VSR)は、低解像度(LR)から高解像度(HR)ビデオを再構成することを目的としている。
DC-VSRは、空間的および時間的に整合したVSR結果を現実的なテクスチャで生成する。
実験により、DC-VSRは空間的にも時間的にも一貫した高品質なVSRを達成し、以前のアプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 13.324336907242195
- License:
- Abstract: Video super-resolution (VSR) aims to reconstruct a high-resolution (HR) video from a low-resolution (LR) counterpart. Achieving successful VSR requires producing realistic HR details and ensuring both spatial and temporal consistency. To restore realistic details, diffusion-based VSR approaches have recently been proposed. However, the inherent randomness of diffusion, combined with their tile-based approach, often leads to spatio-temporal inconsistencies. In this paper, we propose DC-VSR, a novel VSR approach to produce spatially and temporally consistent VSR results with realistic textures. To achieve spatial and temporal consistency, DC-VSR adopts a novel Spatial Attention Propagation (SAP) scheme and a Temporal Attention Propagation (TAP) scheme that propagate information across spatio-temporal tiles based on the self-attention mechanism. To enhance high-frequency details, we also introduce Detail-Suppression Self-Attention Guidance (DSSAG), a novel diffusion guidance scheme. Comprehensive experiments demonstrate that DC-VSR achieves spatially and temporally consistent, high-quality VSR results, outperforming previous approaches.
- Abstract(参考訳): ビデオ超解像(VSR)は、高解像度(HR)映像を低解像度(LR)映像から再構成することを目的としている。
VSRを成功させるためには、現実的なHRの詳細を作成し、空間的および時間的整合性を確保する必要がある。
現実的な詳細を復元するために、拡散に基づくVSRアプローチが最近提案されている。
しかし、拡散の固有のランダム性は、タイルベースのアプローチと相まって、時空間的不整合をもたらすことが多い。
本稿では,空間的・時間的に整合性のあるVSRを現実的なテクスチャで生成する新しいVSR手法であるDC-VSRを提案する。
空間的・時間的整合性を達成するため、DC-VSRは空間的注意伝達(SAP)と時間的注意伝達(TAP)方式を採用し、自己注意機構に基づいて時空間タイル間で情報を伝達する。
また,新しい拡散誘導方式であるDSSAG(Detail-Suppression Self-Attention Guidance)についても紹介する。
総合的な実験により、DC-VSRは空間的かつ時間的に整合性があり、高品質なVSR結果を得ることができ、以前のアプローチよりも優れていた。
関連論文リスト
- Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [17.570136632211693]
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-27T15:14:38Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z) - Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video
Super-Resolution via Cycle-Projected Mutual Learning [48.68503274323906]
本稿では,ST-VSRのためのCycle-Projected Mutual Learning Network (CycMu-Net)を提案する。
CycMu-NetはS-VSRとT-VSRの相互学習を通じて空間的時間的相関をフル活用する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-11T04:30:47Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。