論文の概要: Semantic and Temporal Integration in Latent Diffusion Space for High-Fidelity Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2508.00471v1
- Date: Fri, 01 Aug 2025 09:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.820103
- Title: Semantic and Temporal Integration in Latent Diffusion Space for High-Fidelity Video Super-Resolution
- Title(参考訳): 高忠実度ビデオ超解像のための潜時拡散空間における意味的・時間的統合
- Authors: Yiwen Wang, Xinning Chai, Yuhong Zhang, Zhengxue Cheng, Jun Zhao, Rong Xie, Li Song,
- Abstract要約: 我々はSeTe-VSR(Semantic and Temporal Guided Video Super-Resolution)を提案する。
本手法は複雑な詳細の復元と時間的コヒーレンス確保のシームレスなバランスを実現する。
提案手法は高精細な視覚コンテンツを保存するだけでなく,忠実度を著しく向上させる。
- 参考スコア(独自算出の注目度): 20.151571582095468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video super-resolution (VSR) models have demonstrated impressive results in enhancing low-resolution videos. However, due to limitations in adequately controlling the generation process, achieving high fidelity alignment with the low-resolution input while maintaining temporal consistency across frames remains a significant challenge. In this work, we propose Semantic and Temporal Guided Video Super-Resolution (SeTe-VSR), a novel approach that incorporates both semantic and temporal-spatio guidance in the latent diffusion space to address these challenges. By incorporating high-level semantic information and integrating spatial and temporal information, our approach achieves a seamless balance between recovering intricate details and ensuring temporal coherence. Our method not only preserves high-reality visual content but also significantly enhances fidelity. Extensive experiments demonstrate that SeTe-VSR outperforms existing methods in terms of detail recovery and perceptual quality, highlighting its effectiveness for complex video super-resolution tasks.
- Abstract(参考訳): ビデオスーパーレゾリューション(VSR)モデルの最近の進歩は、低解像度ビデオの強化に顕著な成果を上げている。
しかし、生成過程を適切に制御する際の制限のため、フレーム間の時間的一貫性を維持しながら、低解像度の入力と高忠実度アライメントを実現することは大きな課題である。
本研究では,セマンティック・テンポラル・ビデオ・スーパーレゾリューション(SeTe-VSR)を提案する。
高レベルの意味情報と空間的情報と時間的情報を統合することで、複雑な詳細の復元と時間的一貫性の確保のシームレスなバランスを実現する。
提案手法は高精細な視覚コンテンツを保存するだけでなく,忠実度を著しく向上させる。
広汎な実験により、SeTe-VSRは、複雑なビデオ超解像タスクにおいて、より詳細な回復と知覚的品質の点で、既存の手法よりも優れていることが示された。
関連論文リスト
- FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
UltraVSRは、超現実的で時間的コヒーレントなVSRを可能にするフレームワークである。
DRSは、分解過程を低解像度から高解像度のビデオから一段階の再構成に変換する。
RTSモジュールは、事前訓練されたテキスト-画像拡散モデルに統合される。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。