論文の概要: OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion
- arxiv url: http://arxiv.org/abs/2601.20308v1
- Date: Wed, 28 Jan 2026 06:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.807877
- Title: OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion
- Title(参考訳): OSDEnhancer:1ステップの拡散でリアルタイムの宇宙時間ビデオの超解像を再現する
- Authors: Shuoyan Wei, Feng Li, Chen Zhou, Runmin Cong, Yao Zhao, Huihui Bai,
- Abstract要約: ビデオスーパーレゾリューションモデル(DM)は、ビデオスーパーレゾリューション(VSR)において極めて成功している。
時空ビデオスーパーレゾリューション(STVSR)の可能性は、低解像度から高解像度までのリアルな視覚コンテンツを回復する必要があるが、コヒーレントなダイナミックスでフレームレートを改善する必要がある。
提案するOSDEnhancerは,効率的なワンステップ拡散プロセスにより,実世界のSTVSRを初期化するための最初の手法である。
実験により,提案手法は実世界のシナリオにおいて優れた性能を維持しつつ,最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 64.10689934231165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have demonstrated exceptional success in video super-resolution (VSR), showcasing a powerful capacity for generating fine-grained details. However, their potential for space-time video super-resolution (STVSR), which necessitates not only recovering realistic visual content from low-resolution to high-resolution but also improving the frame rate with coherent temporal dynamics, remains largely underexplored. Moreover, existing STVSR methods predominantly address spatiotemporal upsampling under simplified degradation assumptions, which often struggle in real-world scenarios with complex unknown degradations. Such a high demand for reconstruction fidelity and temporal consistency makes the development of a robust STVSR framework particularly non-trivial. To address these challenges, we propose OSDEnhancer, a novel framework that, to the best of our knowledge, represents the first method to achieve real-world STVSR through an efficient one-step diffusion process. OSDEnhancer initializes essential spatiotemporal structures through a linear pre-interpolation strategy and pivots on training temporal refinement and spatial enhancement mixture of experts (TR-SE MoE), which allows distinct expert pathways to progressively learn robust, specialized representations for temporal coherence and spatial detail, further collaboratively reinforcing each other during inference. A bidirectional deformable variational autoencoder (VAE) decoder is further introduced to perform recurrent spatiotemporal aggregation and propagation, enhancing cross-frame reconstruction fidelity. Experiments demonstrate that the proposed method achieves state-of-the-art performance while maintaining superior generalization capability in real-world scenarios.
- Abstract(参考訳): 拡散モデル (DM) はビデオ超解像 (VSR) において極めて成功しており、微細な細部を生成する強力な能力を示している。
しかし、低解像度から高解像度までリアルな視覚コンテンツを復元するだけでなく、コヒーレントな時間的ダイナミックスでフレームレートを向上する必要がある時空ビデオ超解像(STVSR)の可能性は、いまだ大半が研究されていない。
さらに、既存のSTVSR法は、複雑な未知の劣化を伴う現実世界のシナリオでしばしば苦労する、単純化された劣化仮定の下での時空間的なアップサンプリングに主に対処する。
このような再構築の忠実さと時間的整合性に対する高い需要は、堅牢なSTVSRフレームワークの開発を特に非自明なものにしている。
これらの課題に対処するため,我々はOSDEnhancerを提案する。OSDEnhancerは,我々の知る限り,効率的なワンステップ拡散プロセスを通じて現実のSTVSRを実現するための最初の手法である。
OSDEnhancerは、線形補間戦略を通じて不可欠な時空間構造を初期化し、専門家の時間的洗練と空間的拡張の混合(TR-SE MoE)を訓練する。
さらに、双方向変形可能な変分オートエンコーダ(VAE)デコーダを導入し、繰り返し時空間アグリゲーションと伝搬を行い、クロスフレーム再構築の精度を高める。
実験により,提案手法は実世界のシナリオにおいて優れた一般化能力を保ちながら,最先端の性能を実現することを示す。
関連論文リスト
- STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution [60.06664986365803]
我々は,事前学習したビデオ拡散モデルに基づいて構築されたビデオ超解像フレームワークSTCDiTを提案する。
複雑なカメラの動きであっても、構造的に忠実で時間的に安定した動画を劣化した入力から復元することを目的としている。
論文 参考訳(メタデータ) (2025-11-24T05:37:23Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Semantic and Temporal Integration in Latent Diffusion Space for High-Fidelity Video Super-Resolution [20.151571582095468]
我々はSeTe-VSR(Semantic and Temporal Guided Video Super-Resolution)を提案する。
本手法は複雑な詳細の復元と時間的コヒーレンス確保のシームレスなバランスを実現する。
提案手法は高精細な視覚コンテンツを保存するだけでなく,忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-01T09:47:35Z) - UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示している。
これらのモデルをビデオ超解像(VSR)に適応させることは、その性質と時間的モデリングの欠如により、依然として困難である。
我々は,超現実的で時間的に整合したVSRを,効率的なワンステップ拡散空間で実現するための新しいフレームワークであるUltraVSRを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。