論文の概要: InfVSR: Breaking Length Limits of Generic Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.00948v1
- Date: Wed, 01 Oct 2025 14:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.607527
- Title: InfVSR: Breaking Length Limits of Generic Video Super-Resolution
- Title(参考訳): InfVSR: ジェネリックビデオの超解像の長さ制限を破る
- Authors: Ziqing Zhang, Kai Liu, Zheng Chen, Xi Li, Yucong Chen, Bingnan Duan, Linghe Kong, Yulun Zhang,
- Abstract要約: InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 40.30527504651693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world videos often extend over thousands of frames. Existing video super-resolution (VSR) approaches, however, face two persistent challenges when processing long sequences: (1) inefficiency due to the heavy cost of multi-step denoising for full-length sequences; and (2) poor scalability hindered by temporal decomposition that causes artifacts and discontinuities. To break these limits, we propose InfVSR, which novelly reformulates VSR as an autoregressive-one-step-diffusion paradigm. This enables streaming inference while fully leveraging pre-trained video diffusion priors. First, we adapt the pre-trained DiT into a causal structure, maintaining both local and global coherence via rolling KV-cache and joint visual guidance. Second, we distill the diffusion process into a single step efficiently, with patch-wise pixel supervision and cross-chunk distribution matching. Together, these designs enable efficient and scalable VSR for unbounded-length videos. To fill the gap in long-form video evaluation, we build a new benchmark tailored for extended sequences and further introduce semantic-level metrics to comprehensively assess temporal consistency. Our method pushes the frontier of long-form VSR, achieves state-of-the-art quality with enhanced semantic consistency, and delivers up to 58x speed-up over existing methods such as MGLD-VSR. Code will be available at https://github.com/Kai-Liu001/InfVSR.
- Abstract(参考訳): 現実世界のビデオは何千フレームにも及ぶことが多い。
しかし、既存のビデオ超解像(VSR)アプローチでは、(1)フルシーケンスのマルチステップ復号化の重いコストによる非効率性、(2)人工物や不連続性を引き起こす一時的な分解によって妨げられるスケーラビリティの低下という、長いシーケンスを処理する際の2つの永続的な課題に直面している。
これらの限界を断ち切るために、我々はVSRを自己回帰1ステップ拡散パラダイムとして新しく再構成するInfVSRを提案する。
これにより、事前訓練されたビデオ拡散を十分に活用しながら、ストリーミング推論が可能になる。
まず、訓練済みのDiTを因果構造に適応させ、局所的およびグローバルなコヒーレンスを維持する。
第2に、パッチワイズ画素監視とクロスチャンク分布マッチングを用いて、拡散過程を1ステップに効率よく蒸留する。
これらの設計により、無制限ビデオのための効率的でスケーラブルなVSRが実現される。
長大なビデオ評価のギャップを埋めるために,拡張シーケンスに適した新しいベンチマークを構築し,時間的一貫性を総合的に評価するための意味レベルメトリクスを導入する。
提案手法は,長大なVSRのフロンティアを押し上げ,セマンティック一貫性を向上して最先端の品質を実現し,MGLD-VSRなどの既存手法よりも最大58倍の高速化を実現する。
コードはhttps://github.com/Kai-Liu001/InfVSRで入手できる。
関連論文リスト
- OS-DiffVSR: Towards One-step Latent Diffusion Model for High-detailed Real-world Video Super-Resolution [11.859297492802456]
実世界の超解像(OS-DiffVSR)に対するワンステップ拡散モデルを提案する。
具体的には、合成ビデオの品質を大幅に向上させる、隣接するフレーム対逆訓練パラダイムを考案する。
論文 参考訳(メタデータ) (2025-09-20T03:04:41Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示している。
これらのモデルをビデオ超解像(VSR)に適応させることは、その性質と時間的モデリングの欠如により、依然として困難である。
我々は,超現実的で時間的に整合したVSRを,効率的なワンステップ拡散空間で実現するための新しいフレームワークであるUltraVSRを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。