論文の概要: FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.12747v1
- Date: Tue, 14 Oct 2025 17:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.418166
- Title: FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
- Title(参考訳): FlashVSR: リアルタイム拡散ベースのストリーミングビデオスーパーリゾリューションを目指す
- Authors: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue,
- Abstract要約: FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。
A100 GPUで768x1408ビデオの約17FPSで動作する。
超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 61.284842030283464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently advanced video restoration, but applying them to real-world video super-resolution (VSR) remains challenging due to high latency, prohibitive computation, and poor generalization to ultra-high resolutions. Our goal in this work is to make diffusion-based VSR practical by achieving efficiency, scalability, and real-time performance. To this end, we propose FlashVSR, the first diffusion-based one-step streaming framework towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408 videos on a single A100 GPU by combining three complementary innovations: (i) a train-friendly three-stage distillation pipeline that enables streaming super-resolution, (ii) locality-constrained sparse attention that cuts redundant computation while bridging the train-test resolution gap, and (iii) a tiny conditional decoder that accelerates reconstruction without sacrificing quality. To support large-scale training, we also construct VSR-120K, a new dataset with 120k videos and 180k images. Extensive experiments show that FlashVSR scales reliably to ultra-high resolutions and achieves state-of-the-art performance with up to 12x speedup over prior one-step diffusion VSR models. We will release the code, pretrained models, and dataset to foster future research in efficient diffusion-based VSR.
- Abstract(参考訳): 拡散モデルは近年,高レイテンシや計算の禁止,超高解像度への一般化の欠如などにより,現実の映像超解像(VSR)に適用することは依然として困難である。
本研究の目的は, 効率, スケーラビリティ, リアルタイム性能を両立させることにより, 拡散型VSRを実用化することである。
この目的のために,FlashVSRを提案し,リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークを提案する。
FlashVSRは、1つのA100 GPU上で768x1408ビデオの約17FPSで動作する。
(i)超高分解能ストリーミングが可能な3段蒸留パイプライン
(二 列車の解答ギャップを埋めながら冗長な計算を省く局所性制約されたスパースアテンション
三 品質を犠牲にすることなく再建を加速する小型の条件デコーダ。
大規模なトレーニングをサポートするために、120kビデオと180kイメージを備えた新しいデータセットであるVSR-120Kを構築した。
大規模な実験により、FlashVSRは超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成することが示された。
我々は、効率的な拡散ベースのVSRの研究を促進するために、コード、事前訓練されたモデル、データセットをリリースする。
関連論文リスト
- InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - Asymmetric VAE for One-Step Video Super-Resolution Acceleration [63.419142632861345]
本稿では,高圧縮VAEを実装することにより,計算コストを大幅に削減するFastVSRを提案する。
FastVSRは、マルチステップモデルに比べて111.9倍、既存のワンステップモデルより3.92倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-29T00:36:14Z) - OS-DiffVSR: Towards One-step Latent Diffusion Model for High-detailed Real-world Video Super-Resolution [11.859297492802456]
実世界の超解像(OS-DiffVSR)に対するワンステップ拡散モデルを提案する。
具体的には、合成ビデオの品質を大幅に向上させる、隣接するフレーム対逆訓練パラダイムを考案する。
論文 参考訳(メタデータ) (2025-09-20T03:04:41Z) - TurboVSR: Fantastic Video Upscalers and Where to Find Them [33.83721799307721]
拡散に基づく生成モデルは、ビデオ超解像(VSR)タスクにおいて例外的な可能性を証明している。
超高効率拡散ベースビデオ超解像モデルであるTurboVSRを提案する。
TurboVSRは最先端のVSR方式と同等に動作し、100倍以上高速で、2秒の1080pビデオを処理するのにわずか7秒しかかからない。
論文 参考訳(メタデータ) (2025-06-30T08:24:13Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。