論文の概要: Asymmetric VAE for One-Step Video Super-Resolution Acceleration
- arxiv url: http://arxiv.org/abs/2509.24142v1
- Date: Mon, 29 Sep 2025 00:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.658793
- Title: Asymmetric VAE for One-Step Video Super-Resolution Acceleration
- Title(参考訳): ワンステップビデオ超解像加速のための非対称VAE
- Authors: Jianze Li, Yong Guo, Yulun Zhang, Xiaokang Yang,
- Abstract要約: 本稿では,高圧縮VAEを実装することにより,計算コストを大幅に削減するFastVSRを提案する。
FastVSRは、マルチステップモデルに比べて111.9倍、既存のワンステップモデルより3.92倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 63.419142632861345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significant advantages in the field of real-world video super-resolution and have demonstrated strong performance in past research. In recent diffusion-based video super-resolution (VSR) models, the number of sampling steps has been reduced to just one, yet there remains significant room for further optimization in inference efficiency. In this paper, we propose FastVSR, which achieves substantial reductions in computational cost by implementing a high compression VAE (spatial compression ratio of 16, denoted as f16). We design the structure of the f16 VAE and introduce a stable training framework. We employ pixel shuffle and channel replication to achieve additional upsampling. Furthermore, we propose a lower-bound-guided training strategy, which introduces a simpler training objective as a lower bound for the VAE's performance. It makes the training process more stable and easier to converge. Experimental results show that FastVSR achieves speedups of 111.9 times compared to multi-step models and 3.92 times compared to existing one-step models. We will release code and models at https://github.com/JianzeLi-114/FastVSR.
- Abstract(参考訳): 拡散モデルは、実世界のビデオ超解像の分野で大きな利点があり、過去の研究で強い性能を示した。
最近の拡散型ビデオ超解像(VSR)モデルでは、サンプリングステップの数は1つに削減されているが、推論効率のさらなる最適化の余地は残っていない。
本稿では,高圧縮VAE(空間圧縮比16,f16)を実装し,計算コストを大幅に削減するFastVSRを提案する。
我々は、f16 VAEの構造を設計し、安定したトレーニングフレームワークを導入する。
我々は、追加のアップサンプリングを実現するために、ピクセルシャッフルとチャネルレプリケーションを採用している。
さらに,よりシンプルなトレーニング目標を,VAEのパフォーマンスの低いバウンドとして導入する,低バウンド誘導型トレーニング戦略を提案する。
これにより、トレーニングプロセスがより安定し、収束しやすくなります。
実験の結果、FastVSRはマルチステップモデルに比べて111.9倍、既存のワンステップモデルより3.92倍のスピードアップを達成した。
コードとモデルはhttps://github.com/JianzeLi-114/FastVSR.comでリリースします。
関連論文リスト
- Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - TurboVSR: Fantastic Video Upscalers and Where to Find Them [33.83721799307721]
拡散に基づく生成モデルは、ビデオ超解像(VSR)タスクにおいて例外的な可能性を証明している。
超高効率拡散ベースビデオ超解像モデルであるTurboVSRを提案する。
TurboVSRは最先端のVSR方式と同等に動作し、100倍以上高速で、2秒の1080pビデオを処理するのにわずか7秒しかかからない。
論文 参考訳(メタデータ) (2025-06-30T08:24:13Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - Low-Resource Video Super-Resolution using Memory, Wavelets, and Deformable Convolutions [3.018928786249079]
ビデオスーパーレゾリューション(VSR)は、リソース制約のあるエッジデバイスへのデプロイにおいて、依然として大きな課題である。
本稿では,230万のパラメータで最先端の再現精度を実現する,VSRのための新しい軽量かつパラメータ効率のニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-03T20:46:15Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。