論文の概要: Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2502.07381v3
- Date: Fri, 27 Jun 2025 10:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 15:06:57.742085
- Title: Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
- Title(参考訳): 圧縮ビデオ超解法における空間劣化の認識と時間一貫性拡散モデル
- Authors: Hongyu An, Xinfeng Zhang, Shijie Zhao, Li Zhang, Ruiqin Xiong,
- Abstract要約: ストレージと帯域幅の制限により、インターネット上で送信されるビデオは低画質で圧縮されたアーティファクトを特徴とすることが多い。
ビデオ超解像(VSR)は効率的なビデオ強調技術であるが、既存のVS手法では圧縮ビデオに焦点を絞らない。
圧縮VSRのための事前学習拡散モデルの先行性を利用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 25.615935776826596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to storage and bandwidth limitations, videos transmitted over the Internet often exhibit low quality, characterized by low-resolution and compression artifacts. Although video super-resolution (VSR) is an efficient video enhancing technique, existing VSR methods focus less on compressed videos. Consequently, directly applying general VSR approaches fails to improve practical videos with compression artifacts, especially when frames are highly compressed at a low bit rate. The inevitable quantization information loss complicates the reconstruction of texture details. Recently, diffusion models have shown superior performance in low-level visual tasks. Leveraging the high-realism generation capability of diffusion models, we propose a novel method that exploits the priors of pre-trained diffusion models for compressed VSR. To mitigate spatial distortions and refine temporal consistency, we introduce a Spatial Degradation-Aware and Temporal Consistent (SDATC) diffusion model. Specifically, we incorporate a distortion control module (DCM) to modulate diffusion model inputs, thereby minimizing the impact of noise from low-quality frames on the generation stage. Subsequently, the diffusion model performs a denoising process to generate details, guided by a fine-tuned compression-aware prompt module (CAPM) and a spatio-temporal attention module (STAM). CAPM dynamically encodes compression-related information into prompts, enabling the sampling process to adapt to different degradation levels. Meanwhile, STAM extends the spatial attention mechanism into the spatio-temporal dimension, effectively capturing temporal correlations. Additionally, we utilize optical flow-based alignment during each denoising step to enhance the smoothness of output videos. Extensive experimental results on benchmark datasets demonstrate the effectiveness of our proposed modules in restoring compressed videos.
- Abstract(参考訳): ストレージと帯域幅の制限により、インターネット上で送信されるビデオは低画質で圧縮されたアーティファクトを特徴とすることが多い。
ビデオ超解像(VSR)は効率的なビデオ強調技術であるが、既存のVSR法では圧縮ビデオに焦点を絞らない。
したがって、一般的なVSRアプローチを直接適用しても、特にフレームが低ビットレートで高度に圧縮されている場合、圧縮アーティファクトによる実用的なビデオを改善することができない。
避けられない量子化情報損失は、テクスチャ詳細の再構築を複雑にする。
近年,低レベル視覚タスクにおける拡散モデルの性能が向上している。
拡散モデルの高現実性生成能力を生かし、圧縮VSRの事前学習拡散モデルの先行性を生かした新しい手法を提案する。
空間歪みを緩和し,時間的整合性を改善するために,空間劣化認識と時間一貫性(SDATC)拡散モデルを導入する。
具体的には、拡散モデル入力を変調するために歪み制御モジュール(DCM)を組み込み、低品質フレームからのノイズの影響を最小限に抑える。
その後、拡散モデルは、微調整圧縮対応プロンプトモジュール(CAPM)と時空間注意モジュール(STAM)によってガイドされる詳細を生成するための復調処理を実行する。
CAPMは圧縮関連情報をプロンプトに動的にエンコードし、サンプリングプロセスが異なる劣化レベルに適応できるようにする。
一方、STAMは空間的注意機構を時空間次元に拡張し、時間的相関を効果的に捉える。
さらに,各デノナイジングステップにおける光フローベースのアライメントを利用して,出力ビデオの滑らかさを向上させる。
ベンチマークデータセットの大規模な実験結果から,圧縮ビデオの復元において提案したモジュールの有効性が示された。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - FCVSR: A Frequency-aware Method for Compressed Video Super-Resolution [26.35492218473007]
本稿では,移動誘導型適応アライメントネットワークと多周波特徴改善モジュールで構成される,深帯域圧縮ビデオSRモデル(FCVSR)を提案する。
提案モデルは3つの圧縮ビデオ圧縮超解像データセットで評価されている。
論文 参考訳(メタデータ) (2025-02-10T13:08:57Z) - Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse [45.134271969594614]
DiffVCは拡散型知覚型ニューラルビデオ圧縮フレームワークである。
基礎拡散モデルとビデオ条件符号化パラダイムを統合する。
提案手法は,知覚指標と視覚的品質の両方において優れた性能を提供することを示す。
論文 参考訳(メタデータ) (2025-01-23T10:23:04Z) - Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文 参考訳(メタデータ) (2025-01-09T18:55:15Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。