論文の概要: Motion-Guided Latent Diffusion for Temporally Consistent Real-world
Video Super-resolution
- arxiv url: http://arxiv.org/abs/2312.00853v1
- Date: Fri, 1 Dec 2023 14:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:26:01.349994
- Title: Motion-Guided Latent Diffusion for Temporally Consistent Real-world
Video Super-resolution
- Title(参考訳): 時間整合実世界ビデオ超解像のための運動誘導潜時拡散
- Authors: Xi Yang, Chenhang He, Jianqi Ma, Lei Zhang
- Abstract要約: 本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
- 参考スコア(独自算出の注目度): 16.602446230909234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world low-resolution (LR) videos have diverse and complex degradations,
imposing great challenges on video super-resolution (VSR) algorithms to
reproduce their high-resolution (HR) counterparts with high quality. Recently,
the diffusion models have shown compelling performance in generating realistic
details for image restoration tasks. However, the diffusion process has
randomness, making it hard to control the contents of restored images. This
issue becomes more serious when applying diffusion models to VSR tasks because
temporal consistency is crucial to the perceptual quality of videos. In this
paper, we propose an effective real-world VSR algorithm by leveraging the
strength of pre-trained latent diffusion models. To ensure the content
consistency among adjacent frames, we exploit the temporal dynamics in LR
videos to guide the diffusion process by optimizing the latent sampling path
with a motion-guided loss, ensuring that the generated HR video maintains a
coherent and continuous visual flow. To further mitigate the discontinuity of
generated details, we insert temporal module to the decoder and fine-tune it
with an innovative sequence-oriented loss. The proposed motion-guided latent
diffusion (MGLD) based VSR algorithm achieves significantly better perceptual
quality than state-of-the-arts on real-world VSR benchmark datasets, validating
the effectiveness of the proposed model design and training strategies.
- Abstract(参考訳): 現実世界の低解像度(LR)ビデオは多種多様で複雑な劣化があり、高解像度(HR)を高品質に再現するビデオ超解像度(VSR)アルゴリズムに大きな課題を生んでいる。
近年,拡散モデルが画像復元タスクの現実的な詳細を生成する上で有意義な性能を示している。
しかし,拡散過程はランダムであり,復元画像の内容の制御が困難である。
この問題は、ビデオの知覚品質に時間的一貫性が不可欠であるため、VSRタスクに拡散モデルを適用する際にさらに深刻になる。
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
隣接フレーム間のコンテンツ整合性を確保するため、LRビデオの時間的ダイナミクスを利用して、遅延サンプリングパスを動作誘導損失で最適化し、生成したHRビデオがコヒーレントかつ連続的な視覚的流れを維持することを保証する。
生成した細部の不連続性をさらに軽減するため、デコーダに時間モジュールを挿入し、革新的なシーケンス指向の損失で微調整する。
動き誘導型潜在拡散(MGLD)に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりもはるかに優れた知覚品質を実現し、提案したモデル設計およびトレーニング戦略の有効性を検証する。
関連論文リスト
- ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [17.570136632211693]
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-27T15:14:38Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z) - Deep Video Super-Resolution using HR Optical Flow Estimation [42.86066957681113]
ビデオ超解像(SR)は、高解像度(HR)フレームを高解像度(LR)フレームから高解像度かつ時間的に一貫した細部で生成することを目的としている。
既存のディープラーニングに基づく手法は、一般的にLRフレーム間の光の流れを推定し、時間依存性を提供する。
我々は、光学フローと画像の両方を超解き放つ、エンドツーエンドのビデオSRネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-06T07:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。