論文の概要: One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2506.15591v1
- Date: Wed, 18 Jun 2025 16:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.734948
- Title: One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution
- Title(参考訳): ディテールリッチとテンポラリ一貫性ビデオ超解像のためのワンステップ拡散法
- Authors: Yujing Sun, Lingchen Sun, Shuaizheng Liu, Rongyuan Wu, Zhengqiang Zhang, Lei Zhang,
- Abstract要約: 本稿では,効果的なSDベースのワンステップ拡散モデルをトレーニングするためのDual LoRA Learning(DLoRAL)パラダイムを提案する。
実験の結果,DLoRALは精度と速度の両方で高い性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 9.03810927740921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a challenging problem to reproduce rich spatial details while maintaining temporal consistency in real-world video super-resolution (Real-VSR), especially when we leverage pre-trained generative models such as stable diffusion (SD) for realistic details synthesis. Existing SD-based Real-VSR methods often compromise spatial details for temporal coherence, resulting in suboptimal visual quality. We argue that the key lies in how to effectively extract the degradation-robust temporal consistency priors from the low-quality (LQ) input video and enhance the video details while maintaining the extracted consistency priors. To achieve this, we propose a Dual LoRA Learning (DLoRAL) paradigm to train an effective SD-based one-step diffusion model, achieving realistic frame details and temporal consistency simultaneously. Specifically, we introduce a Cross-Frame Retrieval (CFR) module to aggregate complementary information across frames, and train a Consistency-LoRA (C-LoRA) to learn robust temporal representations from degraded inputs. After consistency learning, we fix the CFR and C-LoRA modules and train a Detail-LoRA (D-LoRA) to enhance spatial details while aligning with the temporal space defined by C-LoRA to keep temporal coherence. The two phases alternate iteratively for optimization, collaboratively delivering consistent and detail-rich outputs. During inference, the two LoRA branches are merged into the SD model, allowing efficient and high-quality video restoration in a single diffusion step. Experiments show that DLoRAL achieves strong performance in both accuracy and speed. Code and models are available at https://github.com/yjsunnn/DLoRAL.
- Abstract(参考訳): 実世界のビデオ・スーパーレゾリューション(Real-VSR)における時間的一貫性を保ちながら、豊かな空間的詳細を再現することは難しい問題であり、特に、現実的な詳細合成に安定拡散(SD)のような事前学習された生成モデルを利用する場合である。
既存のSDベースのReal-VSR手法は、時間的コヒーレンスのために空間的詳細を妥協することが多く、その結果、視覚的品質が最適である。
我々は、低品質(LQ)入力ビデオから劣化・破壊的時間的一貫性を効果的に抽出し、抽出した一貫性を保ちながら、ビデオの詳細を強化する方法について論じる。
そこで本研究では,SDに基づく一段階拡散モデルの訓練を行うためのDual LoRA Learning(DLoRAL)パラダイムを提案し,現実的なフレームの詳細と時間的一貫性を同時に実現した。
具体的には、フレーム間の補完情報を集約するクロスフレーム検索(CFR)モジュールを導入し、C-LoRA(Consistency-LoRA)をトレーニングし、劣化した入力から堅牢な時間表現を学習する。
整合学習後,CFRおよびC-LoRAモジュールを固定し,空間的詳細性を高めるためにD-LoRA(Detail-LoRA)を訓練し,時間的コヒーレンスを維持するためにC-LoRAで定義された時間空間と整合する。
2つのフェーズは、最適化のために反復的に、一貫性と詳細に富んだアウトプットを共同で提供します。
推論中に2つのLoRAブランチをSDモデルにマージし、単一の拡散ステップで効率よく高品質なビデオ復元を可能にする。
実験の結果,DLoRALは精度と速度の両方で高い性能を発揮することがわかった。
コードとモデルはhttps://github.com/yjsunnn/DLoRAL.comで入手できる。
関連論文リスト
- UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
UltraVSRは、超現実的で時間的コヒーレントなVSRを可能にするフレームワークである。
DRSは、分解過程を低解像度から高解像度のビデオから一段階の再構成に変換する。
RTSモジュールは、事前訓練されたテキスト-画像拡散モデルに統合される。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - DC-VSR: Spatially and Temporally Consistent Video Super-Resolution with Video Diffusion Prior [13.324336907242195]
ビデオ解像度(VSR)は、低解像度(LR)から高解像度(HR)ビデオを再構成することを目的としている。
DC-VSRは、空間的および時間的に整合したVSR結果を現実的なテクスチャで生成する。
実験により、DC-VSRは空間的にも時間的にも一貫した高品質なVSRを達成し、以前のアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-05T10:15:00Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - You Only Align Once: Bidirectional Interaction for Spatial-Temporal
Video Super-Resolution [14.624610700550754]
そこで本研究では,ST-VSRの双方向相互作用を考慮した効率的なリカレントネットワークを提案する。
最初は未来から過去への後方推論を行い、その後、超解中間フレームへの前方推論を行う。
提案手法は, 最先端の手法よりも効率が良く, 計算コストを約22%削減する。
論文 参考訳(メタデータ) (2022-07-13T17:01:16Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。