論文の概要: TurboVSR: Fantastic Video Upscalers and Where to Find Them
- arxiv url: http://arxiv.org/abs/2506.23618v1
- Date: Mon, 30 Jun 2025 08:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.975406
- Title: TurboVSR: Fantastic Video Upscalers and Where to Find Them
- Title(参考訳): TurboVSR:ファンタスティックなビデオアップスケーラと、どこで探すか
- Authors: Zhongdao Wang, Guodongfang Zhao, Jingjing Ren, Bailan Feng, Shifeng Zhang, Wenbo Li,
- Abstract要約: 拡散に基づく生成モデルは、ビデオ超解像(VSR)タスクにおいて例外的な可能性を証明している。
超高効率拡散ベースビデオ超解像モデルであるTurboVSRを提案する。
TurboVSRは最先端のVSR方式と同等に動作し、100倍以上高速で、2秒の1080pビデオを処理するのにわずか7秒しかかからない。
- 参考スコア(独自算出の注目度): 33.83721799307721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have demonstrated exceptional promise in the video super-resolution (VSR) task, achieving a substantial advancement in detail generation relative to prior methods. However, these approaches face significant computational efficiency challenges. For instance, current techniques may require tens of minutes to super-resolve a mere 2-second, 1080p video. In this paper, we present TurboVSR, an ultra-efficient diffusion-based video super-resolution model. Our core design comprises three key aspects: (1) We employ an autoencoder with a high compression ratio of 32$\times$32$\times$8 to reduce the number of tokens. (2) Highly compressed latents pose substantial challenges for training. We introduce factorized conditioning to mitigate the learning complexity: we first learn to super-resolve the initial frame; subsequently, we condition the super-resolution of the remaining frames on the high-resolution initial frame and the low-resolution subsequent frames. (3) We convert the pre-trained diffusion model to a shortcut model to enable fewer sampling steps, further accelerating inference. As a result, TurboVSR performs on par with state-of-the-art VSR methods, while being 100+ times faster, taking only 7 seconds to process a 2-second long 1080p video. TurboVSR also supports image resolution by considering image as a one-frame video. Our efficient design makes SR beyond 1080p possible, results on 4K (3648$\times$2048) image SR show surprising fine details.
- Abstract(参考訳): 拡散に基づく生成モデルは、ビデオ超解像(VSR)タスクにおいて例外的な可能性を示しており、従来の手法と比較して詳細な生成がかなり進歩している。
しかし、これらの手法は計算効率の重大な課題に直面している。
例えば、現在の技術では、わずか2秒、1080pのビデオの超解凍に何分もかかります。
本稿では,超高効率拡散ベースビデオ超解像モデルであるTurboVSRを提案する。
1) トークン数を減らすために32$\times$32$\times$8という高い圧縮比を持つオートエンコーダを使用する。
2) 高圧縮潜伏剤は, トレーニングに重大な課題を生じさせる。
まず、初期フレームの超解法を学習し、その後、高分解能初期フレームと低分解能後フレームの残りのフレームの超解法を条件とする。
(3) 事前学習した拡散モデルをショートカットモデルに変換し、サンプリングステップを減らし、推論をさらに高速化する。
その結果、TurboVSRは最先端のVSR方式と同等に動作し、100倍以上高速で、2秒の1080pビデオを処理するのにわずか7秒しかかからない。
また、TurboVSRは画像の解像度を1フレームのビデオとして考慮してサポートしている。
我々の効率的な設計は、SRが1080pを超えることを可能としており、4K (3648$\times$2048) の画像 SR は驚くべき細部を示している。
関連論文リスト
- DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - RTSR: A Real-Time Super-Resolution Model for AV1 Compressed Content [10.569678424799616]
超解像度(SR)は、映像コンテンツの視覚的品質を改善するための重要な技術である。
リアルタイム再生をサポートするためには,高速SRモデルの実装が重要である。
本稿では,圧縮映像の視覚的品質を高めるために,低複雑さSR手法RTSRを提案する。
論文 参考訳(メタデータ) (2024-11-20T14:36:06Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。