論文の概要: DAM-VSR: Disentanglement of Appearance and Motion for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2507.01012v1
- Date: Tue, 01 Jul 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.781201
- Title: DAM-VSR: Disentanglement of Appearance and Motion for Video Super-Resolution
- Title(参考訳): DAM-VSR:ビデオ超解像における外観と動きの絡み合い
- Authors: Zhe Kong, Le Li, Yong Zhang, Feng Gao, Shaoshu Yang, Tao Wang, Kaihao Zhang, Zhuoliang Kang, Xiaoming Wei, Guanying Chen, Wenhan Luo,
- Abstract要約: DAM-VSRは実世界の映像の超解像のための外見と動きの切り離しのためのフレームワークである。
このフレームワークはVSRを外見の強化とモーションコントロールの問題に切り離す。
実世界のデータとAIGCデータに対する最先端のパフォーマンスを実現し、その強力な詳細生成能力を実証している。
- 参考スコア(独自算出の注目度): 43.96850177257758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world video super-resolution (VSR) presents significant challenges due to complex and unpredictable degradations. Although some recent methods utilize image diffusion models for VSR and have shown improved detail generation capabilities, they still struggle to produce temporally consistent frames. We attempt to use Stable Video Diffusion (SVD) combined with ControlNet to address this issue. However, due to the intrinsic image-animation characteristics of SVD, it is challenging to generate fine details using only low-quality videos. To tackle this problem, we propose DAM-VSR, an appearance and motion disentanglement framework for VSR. This framework disentangles VSR into appearance enhancement and motion control problems. Specifically, appearance enhancement is achieved through reference image super-resolution, while motion control is achieved through video ControlNet. This disentanglement fully leverages the generative prior of video diffusion models and the detail generation capabilities of image super-resolution models. Furthermore, equipped with the proposed motion-aligned bidirectional sampling strategy, DAM-VSR can conduct VSR on longer input videos. DAM-VSR achieves state-of-the-art performance on real-world data and AIGC data, demonstrating its powerful detail generation capabilities.
- Abstract(参考訳): 実世界のビデオ超解像(VSR)は、複雑で予測不可能な劣化による重大な課題を呈している。
近年の手法では、画像拡散モデルをVSRに応用し、詳細生成能力の向上を図っているが、時間的に一貫したフレームの生成に苦慮している。
安定ビデオ拡散(SVD)とコントロールネットを組み合わせてこの問題に対処しようと試みる。
しかし,SVDの本質的な画像アニメーション特性のため,低画質映像のみを用いて細部を再現することは困難である。
この問題に対処するため,我々は,VSRの外観と動きの絡み合うフレームワークであるDAM-VSRを提案する。
このフレームワークはVSRを外見の強化とモーションコントロールの問題に切り離す。
具体的には、視認性向上は参照画像の超解像により達成され、モーションコントロールはビデオ制御ネットによって達成される。
この歪みは、ビデオ拡散モデルの生成先行と画像超解像モデルの詳細生成能力を完全に活用する。
さらに、DAM-VSRは、モーションアライメントされた双方向サンプリング戦略により、より長い入力ビデオ上でVSRを実行することができる。
DAM-VSRは、実世界のデータとAIGCデータに対する最先端のパフォーマンスを実現し、その強力な詳細生成能力を実証している。
関連論文リスト
- FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Event-Enhanced Blurry Video Super-Resolution [52.894824081586776]
我々は,低解像度(LR)とぼやけた入力から高解像度(HR)ビデオを生成することを目的とした,ぼやけたビデオ超解像(BVSR)の課題に取り組む。
現在のBVSR法は、しばしば高解像度でシャープな詳細を復元するのに失敗し、顕著なアーティファクトとジッターを生み出した。
本稿では,BVSR にイベント信号を導入し,新しいイベント強化ネットワーク Ev-DeVSR を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:55:41Z) - VideoGigaGAN: Towards Detail-rich Video Super-Resolution [41.4147016287269]
ビデオ・スーパーレゾリューション(VSR)アプローチは、アップサンプリングされたビデオに顕著な時間的一貫性を示す。
本稿では,高頻度の細部と時間的整合性を持つビデオを生成する新しい生成型VSRモデルであるVideoGigaGANを紹介する。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [17.570136632211693]
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-27T15:14:38Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。