論文の概要: Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features
- arxiv url: http://arxiv.org/abs/2511.16928v1
- Date: Fri, 21 Nov 2025 03:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.875877
- Title: Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features
- Title(参考訳): 拡散モデルに基づくビデオ超解法の再考 : 特徴量からのディエンスガイダンスの活用
- Authors: Jingyi Xu, Meisong Zheng, Ying Chen, Minglang Qiao, Xin Deng, Mai Xu,
- Abstract要約: ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
- 参考スコア(独自算出の注目度): 51.5076190312734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion model (DM) based Video Super-Resolution (VSR) approaches achieve impressive perceptual quality. However, they suffer from error accumulation, spatial artifacts, and a trade-off between perceptual quality and fidelity, primarily caused by inaccurate alignment and insufficient compensation between video frames. In this paper, within the DM-based VSR pipeline, we revisit the role of alignment and compensation between adjacent video frames and reveal two crucial observations: (a) the feature domain is better suited than the pixel domain for information compensation due to its stronger spatial and temporal correlations, and (b) warping at an upscaled resolution better preserves high-frequency information, but this benefit is not necessarily monotonic. Therefore, we propose a novel Densely Guided diffusion model with Aligned Features for Video Super-Resolution (DGAF-VSR), with an Optical Guided Warping Module (OGWM) to maintain high-frequency details in the aligned features and a Feature-wise Temporal Condition Module (FTCM) to deliver dense guidance in the feature domain. Extensive experiments on synthetic and real-world datasets demonstrate that DGAF-VSR surpasses state-of-the-art methods in key aspects of VSR, including perceptual quality (35.82\% DISTS reduction), fidelity (0.20 dB PSNR gain), and temporal consistency (30.37\% tLPIPS reduction).
- Abstract(参考訳): 拡散モデル (DM) に基づくビデオ超解法 (VSR) アプローチは印象的な知覚品質を実現する。
しかし、それらは誤りの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされ、主に不正確なアライメントとビデオフレーム間の補償不足によって引き起こされる。
本稿では、DMベースのVSRパイプラインにおいて、隣接するビデオフレーム間のアライメントと補償の役割を再考し、2つの重要な観察結果を明らかにする。
(a)特徴領域は、より強い空間的・時間的相関による情報補償のために画素領域よりも適しており、
(b)高分解能でのワープは高周波情報をよりよく保存するが、この利点は必ずしも単調ではない。
そこで本稿では,ビデオスーパーリゾリューションのための配向特徴量(DGAF-VSR)を付加したDensely Guideddiffed Modelを提案し,OGWM (Optical Guided Warping Module) とFTCM (Feature-wise Temporal Condition Module) を併用し,特徴領域における高密度ガイダンスを実現する。
合成および実世界のデータセットに関する大規模な実験により、DGAF-VSRは知覚品質(35.82 % DisTS の削減)、忠実度(0.20 dB PSNR のゲイン)、時間的一貫性(30.37 % tLPIPS の削減)など、VSRの重要な側面において最先端の手法を上回ることが示されている。
関連論文リスト
- UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示している。
これらのモデルをビデオ超解像(VSR)に適応させることは、その性質と時間的モデリングの欠如により、依然として困難である。
我々は,超現実的で時間的に整合したVSRを,効率的なワンステップ拡散空間で実現するための新しいフレームワークであるUltraVSRを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution [25.615935776826596]
Omnidirectional (ODV)は360degシーンをキャプチャすることで没入型視覚体験を提供する。
ODVは、デバイスと伝送帯域幅の広い視野と制限のために、低解像度に悩まされることが多い。
本研究では,空間的投影歪みとODVの時間的フリッカリングを軽減するため,時空間アウェア歪みネットワーク(STDAN)を提案する。
論文 参考訳(メタデータ) (2024-10-15T11:17:19Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。