論文の概要: Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion
- arxiv url: http://arxiv.org/abs/2512.23709v1
- Date: Mon, 29 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.627149
- Title: Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion
- Title(参考訳): Stream-DiffVSR: 自己回帰拡散による低レイテンシストリーミングビデオ超解像
- Authors: Hau-Shiang Shiu, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Po-Fan Yu, Yu-Chih Chen, Yu-Lun Liu,
- Abstract要約: Stream-DiffVSRは効率的なオンラインVSRのための因果条件付き拡散フレームワークである。
GTX4090 GPUで0.328秒で720pのフレームを処理する。
知覚品質(LPIPS +0.095)を向上し、レイテンシを130倍以上削減する。
- 参考スコア(独自算出の注目度): 10.847237180991948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/
- Abstract(参考訳): 拡散に基づくビデオ超解像法(VSR)は、知覚品質が高いが、将来のフレームや高価なマルチステップデノイングに依存するため、遅延に敏感な設定では実用的ではない。
本稿では,効率的なオンラインVSRのための因果条件付き拡散フレームワークStream-DiffVSRを提案する。
過去のフレームを厳格に操作し、高速な推論のために4段階蒸留されたデノイザ、潜伏デノイジング中に運動整列キューを注入する自動回帰的テンポラルガイダンス(ARTG)モジュール、そして細部と時間的コヒーレンスを高めるテンポラルプロセッサモジュール(TPM)と軽量の時間的認識デコーダを組み合わせた。
Stream-DiffVSRはRTX4090 GPU上で0.328秒で720pのフレームを処理する。
オンラインのSOTA TMPと比較すると、知覚品質(LPIPS +0.095)が向上し、レイテンシが130倍以上削減される。
Stream-DiffVSRは、拡散ベースのVSRで報告される最低レイテンシを達成し、初期遅延を4600秒以上から0.328秒に短縮し、低レイテンシのオンラインデプロイメントに適した最初の拡散VSR手法となった。
プロジェクトページ:https://jamichs.github.io/stream-diffvsr-project-page/
関連論文リスト
- Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Diffusion Buffer for Online Generative Speech Enhancement [32.98694610706198]
Diffusion Bufferは生成拡散に基づく音声強調モデルである。
データストリームから受信する信号フレーム毎に1つのニューラルネットワークコールしか必要としない。
コンシューマグレードのGPU上で、オンライン形式で拡張を実行する。
論文 参考訳(メタデータ) (2025-10-21T15:52:33Z) - FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [61.284842030283464]
FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。
A100 GPUで768x1408ビデオの約17FPSで動作する。
超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-10-14T17:25:54Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。