論文の概要: PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2509.26025v1
- Date: Tue, 30 Sep 2025 09:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.090948
- Title: PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution
- Title(参考訳): PatchVSR:Patch-wise Video Super-Resolutionでビデオ拡散の限界を破る
- Authors: Shian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji,
- Abstract要約: 条件付き誘導のためのデュアルストリームアダプタを統合したPatchVSRという革新的な手法を提案する。
提案手法はパッチレベルで高忠実で高解像度の細部を合成できることを示す。
512x512の解像度ベースモデルに基づいて、非常に高い効率で高い競争力を持つ4K VSRを実現することができる。
- 参考スコア(独自算出の注目度): 65.09345929328586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained video generation models hold great potential for generative video super-resolution (VSR). However, adapting them for full-size VSR, as most existing methods do, suffers from unnecessary intensive full-attention computation and fixed output resolution. To overcome these limitations, we make the first exploration into utilizing video diffusion priors for patch-wise VSR. This is non-trivial because pre-trained video diffusion models are not native for patch-level detail generation. To mitigate this challenge, we propose an innovative approach, called PatchVSR, which integrates a dual-stream adapter for conditional guidance. The patch branch extracts features from input patches to maintain content fidelity while the global branch extracts context features from the resized full video to bridge the generation gap caused by incomplete semantics of patches. Particularly, we also inject the patch's location information into the model to better contextualize patch synthesis within the global video frame. Experiments demonstrate that our method can synthesize high-fidelity, high-resolution details at the patch level. A tailor-made multi-patch joint modulation is proposed to ensure visual consistency across individually enhanced patches. Due to the flexibility of our patch-based paradigm, we can achieve highly competitive 4K VSR based on a 512x512 resolution base model, with extremely high efficiency.
- Abstract(参考訳): 事前訓練されたビデオ生成モデルは、生成ビデオ超解像(VSR)に大きな可能性を秘めている。
しかし、既存のほとんどの方法と同様に、それらをフルサイズのVSRに適応させることは、不要なフルアテンション計算と固定出力分解に悩まされる。
これらの制限を克服するため、我々はパッチワイドVSRのためのビデオ拡散先行値の活用を初めて検討する。
事前訓練されたビデオ拡散モデルはパッチレベルの詳細生成にはネイティブではないため、これは簡単ではない。
この課題を緩和するために、条件付きガイダンスのためのデュアルストリームアダプタを統合するPatchVSRと呼ばれる革新的なアプローチを提案する。
パッチブランチは、入力パッチから特徴を抽出し、コンテンツ忠実性を維持する一方、グローバルブランチは、リサイズされたフルビデオからコンテキスト特徴を抽出し、パッチの不完全な意味論による生成ギャップをブリッジする。
特に,パッチの位置情報をモデルに注入することで,グローバルなビデオフレーム内でのパッチ合成の文脈的改善を図る。
提案手法はパッチレベルで高忠実で高解像度の細部を合成できることを示す。
個別に強化されたパッチ間の視覚的整合性を確保するために、テーラーメイドのマルチパッチ関節変調を提案する。
パッチベースのパラダイムの柔軟性のため、512x512の解像度ベースモデルに基づく高い競争力を持つ4K VSRを極めて高い効率で実現できます。
関連論文リスト
- FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。
本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。
最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文 参考訳(メタデータ) (2024-11-25T12:01:57Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution [44.345740602726345]
PatchScalerは、単一画像超解像のための効率的なパッチ非依存拡散パイプラインである。
テクスチャは、共通参照テクスチャメモリから、ターゲットパッチのテクスチャ先行を適応的に検索する。
本コードでは,定量評価と定性評価の両方において優れた性能を示し,推論を著しく高速化する。
論文 参考訳(メタデータ) (2024-05-27T13:31:46Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation
and Alignment [90.81396836308085]
我々は,伝播とアライメントの強化による再生フレームワークの強化により,映像情報をより効果的に活用できることを示す。
我々のモデルである BasicVSR++ は PSNR で BasicVSR を 0.82 dB で上回っている。
BasicVSR++は圧縮ビデオ強化などの他のビデオ復元タスクによく一般化される。
論文 参考訳(メタデータ) (2021-04-27T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。