論文の概要: InstaVSR: Taming Diffusion for Efficient and Temporally Consistent Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.26134v1
- Date: Fri, 27 Mar 2026 07:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.386095
- Title: InstaVSR: Taming Diffusion for Efficient and Temporally Consistent Video Super-Resolution
- Title(参考訳): InstaVSR: 効率的かつ時間的に一貫性のあるビデオ超解像のための拡散処理
- Authors: Jintong Hu, Bin Chen, Zhenyu Hu, Jiayue Liu, Guo Wang, Lu Qi,
- Abstract要約: InstaVSRは、効率的なビデオ超解像のための軽量拡散フレームワークである。
30フレームのビデオを2K$times$2K解像度で1分以内で処理し、メモリ使用量はわずか7GBである。
- 参考スコア(独自算出の注目度): 27.629863377761527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video super-resolution (VSR) seeks to reconstruct high-resolution frames from low-resolution inputs. While diffusion-based methods have substantially improved perceptual quality, extending them to video remains challenging for two reasons: strong generative priors can introduce temporal instability, and multi-frame diffusion pipelines are often too expensive for practical deployment. To address both challenges simultaneously, we propose InstaVSR, a lightweight diffusion framework for efficient video super-resolution. InstaVSR combines three ingredients: (1) a pruned one-step diffusion backbone that removes several costly components from conventional diffusion-based VSR pipelines, (2) recurrent training with flow-guided temporal regularization to improve frame-to-frame stability, and (3) dual-space adversarial learning in latent and pixel spaces to preserve perceptual quality after backbone simplification. On an NVIDIA RTX 4090, InstaVSR processes a 30-frame video at 2K$\times$2K resolution in under one minute with only 7 GB of memory usage, substantially reducing the computational cost compared to existing diffusion-based methods while maintaining favorable perceptual quality with significantly smoother temporal transitions.
- Abstract(参考訳): ビデオ超解像(VSR)は低分解能入力から高分解能フレームを再構成しようとする。
拡散に基づく手法は知覚品質を大幅に向上させたが、ビデオに拡張することは2つの理由から困難である。
両課題を同時に解決するために,高効率ビデオ超解像のための軽量拡散フレームワークInstaVSRを提案する。
InstaVSRは,(1)従来の拡散型VSRパイプラインから高コスト成分を除去する1段階拡散バックボーン,(2)フレーム間安定性を向上させるためのフロー誘導時間正規化による反復トレーニング,(3)バックボーン単純化後の知覚品質を維持するために,潜在空間と画素空間における二重空間対向学習,の3つの要素を組み合わせた。
NVIDIA RTX 4090では、InstaVSRは1分以内で2K$\times$2Kの解像度で30フレームのビデオを処理し、メモリ使用量はわずか7GBである。
関連論文リスト
- Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution [36.32266529540775]
SeedVR2、DOVE、DLoRALのようなワンステップネットワークは、数十億のパラメータとマルチ秒のレイテンシで重くなります。
最近の逆拡散圧縮(ADC)は、これらのモデルをコンパクトなAdcSRネットワークに切断・蒸留することで、有望な経路を提供する。
本稿では,空間的詳細と時間的整合性のバランスを保った実VSRのための改良されたADC手法を提案する。
論文 参考訳(メタデータ) (2026-02-28T04:30:54Z) - D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy [7.553742541566094]
時間的アライメントと拡散前処理の統合は ビデオ復元の 変革的パラダイムとして現れました 素晴らしい知覚の質を提供しています
単一画像拡散に基づく低ステップ推論によるビデオ再生フレームワークである textbfD$2$-VR を提案する。
論文 参考訳(メタデータ) (2026-02-09T08:52:51Z) - OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion [64.10689934231165]
ビデオスーパーレゾリューションモデル(DM)は、ビデオスーパーレゾリューション(VSR)において極めて成功している。
時空ビデオスーパーレゾリューション(STVSR)の可能性は、低解像度から高解像度までのリアルな視覚コンテンツを回復する必要があるが、コヒーレントなダイナミックスでフレームレートを改善する必要がある。
提案するOSDEnhancerは,効率的なワンステップ拡散プロセスにより,実世界のSTVSRを初期化するための最初の手法である。
実験により,提案手法は実世界のシナリオにおいて優れた性能を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T06:59:55Z) - Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [61.284842030283464]
FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。
A100 GPUで768x1408ビデオの約17FPSで動作する。
超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-10-14T17:25:54Z) - InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。