論文の概要: UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space
- arxiv url: http://arxiv.org/abs/2505.19958v1
- Date: Mon, 26 May 2025 13:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.457453
- Title: UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space
- Title(参考訳): UltraVSR: 効率の良い1ステップ拡散空間で超現実的な超解像を実現する
- Authors: Yong Liu, Jinshan Pan, Yinchuan Li, Qingji Dong, Chao Zhu, Yu Guo, Fei Wang,
- Abstract要約: UltraVSRは、超現実的で時間的コヒーレントなVSRを可能にするフレームワークである。
DRSは、分解過程を低解像度から高解像度のビデオから一段階の再構成に変換する。
RTSモジュールは、事前訓練されたテキスト-画像拡散モデルに統合される。
- 参考スコア(独自算出の注目度): 46.43409853027655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have shown great potential in generating realistic image detail. However, adapting these models to video super-resolution (VSR) remains challenging due to their inherent stochasticity and lack of temporal modeling. In this paper, we propose UltraVSR, a novel framework that enables ultra-realistic and temporal-coherent VSR through an efficient one-step diffusion space. A central component of UltraVSR is the Degradation-aware Restoration Schedule (DRS), which estimates a degradation factor from the low-resolution input and transforms iterative denoising process into a single-step reconstruction from from low-resolution to high-resolution videos. This design eliminates randomness from diffusion noise and significantly speeds up inference. To ensure temporal consistency, we propose a lightweight yet effective Recurrent Temporal Shift (RTS) module, composed of an RTS-convolution unit and an RTS-attention unit. By partially shifting feature components along the temporal dimension, these two units collaboratively facilitate effective feature propagation, fusion, and alignment across neighboring frames, without relying on explicit temporal layers. The RTS module is integrated into a pretrained text-to-image diffusion model and is further enhanced through Spatio-temporal Joint Distillation (SJD), which improves temporal coherence while preserving realistic details. Additionally, we introduce a Temporally Asynchronous Inference (TAI) strategy to capture long-range temporal dependencies under limited memory constraints. Extensive experiments show that UltraVSR achieves state-of-the-art performance, both qualitatively and quantitatively, in a single sampling step.
- Abstract(参考訳): 拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示している。
しかしながら、これらのモデルをビデオ超解像(VSR)に適応させることは、その固有の確率性と時間的モデリングの欠如により、依然として困難である。
本稿では,超現実的かつ時間的コヒーレントなVSRを,効率的なワンステップ拡散空間を通じて実現するための新しいフレームワークであるUltraVSRを提案する。
UltraVSRの中心的なコンポーネントは、低分解能入力から分解係数を推定し、反復的復調処理を低分解能から高分解能ビデオまでの1段階の再構成に変換する分解分解型復元スケジュール(DRS)である。
この設計は拡散ノイズからランダム性を排除し、推論を大幅に高速化する。
時間的整合性を確保するため,RTS-畳み込みユニットとRTS-アテンションユニットからなるRTSモジュールを提案する。
特徴成分を時間次元に沿って部分的にシフトさせることで、これらの2つのユニットは、明示的な時間層に頼ることなく、隣接するフレーム間の効果的な特徴伝播、融合、アライメントを促進する。
RTSモジュールは事前訓練されたテキスト・ツー・イメージ拡散モデルに統合され、現実的な詳細を保存しながら時間的コヒーレンスを改善するSJD(Spatio-temporal Joint Distillation)によってさらに拡張される。
さらに、時間的非同期推論(TAI)戦略を導入し、限られたメモリ制約の下で、長期の時間的依存関係をキャプチャする。
広汎な実験により,UltraVSRは1回のサンプリング段階において,定性的かつ定量的に最先端の性能を達成することが示された。
関連論文リスト
- DC-VSR: Spatially and Temporally Consistent Video Super-Resolution with Video Diffusion Prior [13.324336907242195]
ビデオ解像度(VSR)は、低解像度(LR)から高解像度(HR)ビデオを再構成することを目的としている。
DC-VSRは、空間的および時間的に整合したVSR結果を現実的なテクスチャで生成する。
実験により、DC-VSRは空間的にも時間的にも一貫した高品質なVSRを達成し、以前のアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-05T10:15:00Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。