論文の概要: Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2502.07381v2
- Date: Wed, 12 Feb 2025 07:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:22.461153
- Title: Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
- Title(参考訳): 圧縮ビデオ超解法における空間劣化の認識と時間一貫性拡散モデル
- Authors: Hongyu An, Xinfeng Zhang, Shijie Zhao, Li Zhang,
- Abstract要約: ビデオスーパーレゾリューション (VSR) はビデオの高精細化に有効な手法であるが、比較的VSR法は圧縮ビデオに焦点を当てている。
圧縮VSRのための空間劣化認識・時間一貫性拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 13.103621878352314
- License:
- Abstract: Due to limitations of storage and bandwidth, videos stored and transmitted on the Internet are usually low-quality with low-resolution and compression noise. Although video super-resolution (VSR) is an efficient technique to enhance video resolution, relatively VSR methods focus on compressed videos. Directly applying general VSR approaches leads to the failure of improving practical videos, especially when frames are highly compressed at a low bit rate. Recently, diffusion models have achieved superior performance in low-level visual tasks, and their high-realism generation capability enables them to be applied in VSR. To synthesize more compression-lost details and refine temporal consistency, we propose a novel Spatial Degradation-Aware and Temporal Consistent (SDATC) diffusion model for compressed VSR. Specifically, we introduce a distortion Control module (DCM) to modulate diffusion model inputs and guide the generation. Next, the diffusion model executes the denoising process for texture generation with fine-tuned spatial prompt-based compression-aware module (PCAM) and spatio-temporal attention module (STAM). PCAM extracts features to encode specific compression information dynamically. STAM extends the spatial attention mechanism to a spatio-temporal dimension for capturing temporal correlation. Extensive experimental results on benchmark datasets demonstrate the effectiveness of the proposed modules in enhancing compressed videos.
- Abstract(参考訳): ストレージと帯域幅の制限のため、インターネットに保存および送信されるビデオは通常、低解像度および圧縮ノイズで低品質である。
ビデオ超解像(VSR)はビデオ解像度を向上させるための効率的な手法であるが、比較的VSR法は圧縮ビデオに焦点を当てている。
一般的なVSRアプローチを直接適用すると、特にフレームが低ビットレートで高度に圧縮されている場合、実用的なビデオを改善することができない。
近年、拡散モデルは低レベル視覚タスクにおいて優れた性能を達成しており、その高現実性生成能力によりVSRに適用することができる。
より圧縮損失の詳細を合成し、時間的整合性を洗練するために、圧縮VSRのための空間劣化・時間一貫性(SDATC)拡散モデルを提案する。
具体的には、拡散モデルの入力を変調し、生成を誘導する歪み制御モジュール(DCM)を導入する。
次に、拡散モデルは、微調整空間プロンプトベースの圧縮認識モジュール(PCAM)と時空間アテンションモジュール(STAM)でテクスチャ生成のためのデノナイズ処理を実行する。
PCAMは、特定の圧縮情報を動的にエンコードする機能を抽出する。
STAMは空間的注意機構を時空間次元に拡張し、時間的相関を捉える。
ベンチマークデータセットの大規模な実験結果は、圧縮ビデオの強化において提案したモジュールの有効性を示す。
関連論文リスト
- FCVSR: A Frequency-aware Method for Compressed Video Super-Resolution [26.35492218473007]
本稿では,移動誘導型適応アライメントネットワークと多周波特徴改善モジュールで構成される,深帯域圧縮ビデオSRモデル(FCVSR)を提案する。
提案モデルは3つの圧縮ビデオ圧縮超解像データセットで評価されている。
論文 参考訳(メタデータ) (2025-02-10T13:08:57Z) - Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse [45.134271969594614]
DiffVCは拡散型知覚型ニューラルビデオ圧縮フレームワークである。
基礎拡散モデルとビデオ条件符号化パラダイムを統合する。
提案手法は,知覚指標と視覚的品質の両方において優れた性能を提供することを示す。
論文 参考訳(メタデータ) (2025-01-23T10:23:04Z) - Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文 参考訳(メタデータ) (2025-01-09T18:55:15Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。