論文の概要: DiffST: Spatiotemporal-Aware Diffusion for Real-World Space-Time Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2605.13182v1
- Date: Wed, 13 May 2026 08:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.921831
- Title: DiffST: Spatiotemporal-Aware Diffusion for Real-World Space-Time Video Super-Resolution
- Title(参考訳): DiffST: リアルタイム時空間ビデオ超解法のための時空間拡散
- Authors: Zheng Chen, Ruofan Yang, Jin Han, Dehua Song, Zichen Zou, Chunming He, Yong Guo, Yulun Zhang,
- Abstract要約: リアルタイムビデオ超解像(STVSR)のための高効率時間対応ビデオ拡散フレームワークDiffSTを紹介する。
効率を向上させるために,一段階サンプリングのための事前学習拡散モデルを適用し,個々のフレームを操作するのではなく,ビデオ全体を直接処理する。
実験により、DiffSTは現実世界のSTVSRタスクにおいて主要な結果を得ることが示された。
- 参考スコア(独自算出の注目度): 38.348149648031885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based models have shown strong performance in video super-resolution (VSR) and video frame interpolation (VFI). However, their role in the coupled space-time video super-resolution (STVSR) setting remains limited. Existing diffusion-based STVSR approaches suffer from two issues: (1) low inference efficiency and (2) insufficient utilization of spatiotemporal information. These limitations impede deployment. To address these issues, we introduce DiffST, an efficient spatiotemporal-aware video diffusion framework for real-world STVSR. To improve efficiency, we adapt a pre-trained diffusion model for one-step sampling and process the entire video directly rather than operating on individual frames. Furthermore, to enhance spatiotemporal information utilization, we introduce cross-frame context aggregation (CFCA) and video representation guidance (VRG). The CFCA module aggregates information across multiple keyframes to produce intermediate frames. The VRG module extracts video-level global features to guide the diffusion process. Extensive experiments show that DiffST obtains leading results on real-world STVSR tasks. It also maintains high inference efficiency, running about 17$\times$ faster than previous diffusion-based STVSR methods. Code is available at: https://github.com/zhengchen1999/DiffST.
- Abstract(参考訳): 拡散型モデルはビデオ超解像(VSR)とビデオフレーム補間(VFI)において高い性能を示した。
しかし、時空ビデオスーパーレゾリューション(STVSR)の設定におけるそれらの役割は依然として限られている。
既存の拡散型STVSRアプローチは,(1)低推論効率と(2)時空間情報の不十分な利用の2つの問題に悩まされている。
これらの制限はデプロイメントを妨げる。
これらの問題に対処するために、実世界のSTVSRのための効率的な時空間対応ビデオ拡散フレームワークであるDiffSTを紹介する。
効率を向上させるために,一段階サンプリングのための事前学習拡散モデルを適用し,個々のフレームを操作するのではなく,ビデオ全体を直接処理する。
さらに,時空間情報の利用率を高めるために,クロスフレームコンテキストアグリゲーション(CFCA)と映像表現誘導(VRG)を導入する。
CFCAモジュールは複数のキーフレームにまたがって情報を集約し、中間フレームを生成する。
VRGモジュールは拡散過程を導くためにビデオレベルのグローバルな特徴を抽出する。
大規模な実験により、DiffSTは現実世界のSTVSRタスクにおいて主要な結果を得ることが示された。
推論効率も高く、従来の拡散ベースのSTVSR法よりも約17$\times$高速である。
コードは、https://github.com/zhengchen 1999/DiffST.comで入手できる。
関連論文リスト
- FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [61.284842030283464]
FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。
A100 GPUで768x1408ビデオの約17FPSで動作する。
超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-10-14T17:25:54Z) - InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - OS-DiffVSR: Towards One-step Latent Diffusion Model for High-detailed Real-world Video Super-Resolution [11.859297492802456]
実世界の超解像(OS-DiffVSR)に対するワンステップ拡散モデルを提案する。
具体的には、合成ビデオの品質を大幅に向上させる、隣接するフレーム対逆訓練パラダイムを考案する。
論文 参考訳(メタデータ) (2025-09-20T03:04:41Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [37.788426685862056]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(すなわち、CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。