論文の概要: RealisVSR: Detail-enhanced Diffusion for Real-World 4K Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2507.19138v1
- Date: Fri, 25 Jul 2025 10:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.918869
- Title: RealisVSR: Detail-enhanced Diffusion for Real-World 4K Video Super-Resolution
- Title(参考訳): RealisVSR: 現実世界の4Kビデオ超解像の詳細な拡散
- Authors: Weisong Zhao, Jingkai Zhou, Xiangyu Zhu, Weihua Chen, Xiao-Yu Zhang, Zhen Lei, Fan Wang,
- Abstract要約: RealisVSRは3つの中心となるイノベーションを持つ高頻度詳細拡張ビデオ拡散モデルである。
本手法では,既存の手法に比べてトレーニングデータ量の5~25%しか必要としない。
- 参考スコア(独自算出の注目度): 42.96414692062782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Super-Resolution (VSR) has achieved significant progress through diffusion models, effectively addressing the over-smoothing issues inherent in GAN-based methods. Despite recent advances, three critical challenges persist in VSR community: 1) Inconsistent modeling of temporal dynamics in foundational models; 2) limited high-frequency detail recovery under complex real-world degradations; and 3) insufficient evaluation of detail enhancement and 4K super-resolution, as current methods primarily rely on 720P datasets with inadequate details. To address these challenges, we propose RealisVSR, a high-frequency detail-enhanced video diffusion model with three core innovations: 1) Consistency Preserved ControlNet (CPC) architecture integrated with the Wan2.1 video diffusion to model the smooth and complex motions and suppress artifacts; 2) High-Frequency Rectified Diffusion Loss (HR-Loss) combining wavelet decomposition and HOG feature constraints for texture restoration; 3) RealisVideo-4K, the first public 4K VSR benchmark containing 1,000 high-definition video-text pairs. Leveraging the advanced spatio-temporal guidance of Wan2.1, our method requires only 5-25% of the training data volume compared to existing approaches. Extensive experiments on VSR benchmarks (REDS, SPMCS, UDM10, YouTube-HQ, VideoLQ, RealisVideo-720P) demonstrate our superiority, particularly in ultra-high-resolution scenarios.
- Abstract(参考訳): ビデオ超解法(VSR)は拡散モデルを通じて大きな進歩を遂げ、GAN法に固有の過度に平滑な問題に効果的に対処している。
近年の進歩にもかかわらず、VSRコミュニティでは3つの重要な課題が続いている。
1)基礎モデルにおける時間力学の不整合モデリング
2 複雑な現実世界の劣化による高周波詳細回復の制限
3) 詳細化と4K超解像の評価は不十分であり, 現状の手法は主に不適切な720Pデータセットに依存している。
これらの課題に対処するため、我々は3つの中心となる革新を伴う高頻度詳細化ビデオ拡散モデルであるRealisVSRを提案する。
1) Wan2.1ビデオ拡散と統合された一貫性保存制御ネット(CPC)アーキテクチャは、滑らかで複雑な動きをモデル化し、アーティファクトを抑制する。
2) ウェーブレット分解とHOG特性制約を併用した高周波数整流拡散損失(HR-ロス)
3) RealisVideo-4Kは、1000の高精細ビデオテキストペアを含む最初の公開4K VSRベンチマークである。
Wan2.1の高度時空間ガイダンスを活用することで,既存の手法に比べてトレーニングデータ量の5~25%しか必要としない。
VSRベンチマーク(REDS, SPMCS, UDM10, YouTube-HQ, VideoLQ, RealisVideo-720P)の大規模な実験は、特に超高解像度シナリオにおいて、我々の優位性を実証している。
関連論文リスト
- ICME 2025 Generalizable HDR and SDR Video Quality Measurement Grand Challenge [66.86693390673298]
この課題は、HDRとSDRコンテンツを共同で扱うことのできるVQAアプローチをベンチマークし、促進することにある。
トップパフォーマンスモデルは最先端のパフォーマンスを達成し、一般化可能なビデオ品質評価のための新しいベンチマークを設定した。
論文 参考訳(メタデータ) (2025-06-28T07:14:23Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - FCVSR: A Frequency-aware Method for Compressed Video Super-Resolution [26.35492218473007]
本稿では,移動誘導型適応アライメントネットワークと多周波特徴改善モジュールで構成される,深帯域圧縮ビデオSRモデル(FCVSR)を提案する。
提案モデルは3つの圧縮ビデオ圧縮超解像データセットで評価されている。
論文 参考訳(メタデータ) (2025-02-10T13:08:57Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [42.859188375578604]
画像拡散モデルは、GAN法における過平滑化問題に対処するために、実世界のビデオ超解像に適応している。
これらのモデルは静的イメージでトレーニングされるため、時間的一貫性を維持するのに苦労する。
我々は,現実的な空間的詳細と強靭な時間的整合性を達成し,T2Vモデルを現実の超解像に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:36:21Z) - RTSR: A Real-Time Super-Resolution Model for AV1 Compressed Content [10.569678424799616]
超解像度(SR)は、映像コンテンツの視覚的品質を改善するための重要な技術である。
リアルタイム再生をサポートするためには,高速SRモデルの実装が重要である。
本稿では,圧縮映像の視覚的品質を高めるために,低複雑さSR手法RTSRを提案する。
論文 参考訳(メタデータ) (2024-11-20T14:36:06Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。