Fugu-MT 論文翻訳(概要): Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution

論文の概要: Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution

arxiv url: http://arxiv.org/abs/2502.07381v2
Date: Wed, 12 Feb 2025 07:37:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 13:45:28.218301
Title: Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
Title（参考訳）: 圧縮ビデオ超解法における空間劣化の認識と時間一貫性拡散モデル
Authors: Hongyu An, Xinfeng Zhang, Shijie Zhao, Li Zhang,
Abstract要約: ビデオスーパーレゾリューション (VSR) はビデオの高精細化に有効な手法であるが、比較的VSR法は圧縮ビデオに焦点を当てている。圧縮VSRのための空間劣化認識・時間一貫性拡散モデルを提案する。
参考スコア（独自算出の注目度）: 13.103621878352314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to limitations of storage and bandwidth, videos stored and transmitted on the Internet are usually low-quality with low-resolution and compression noise. Although video super-resolution (VSR) is an efficient technique to enhance video resolution, relatively VSR methods focus on compressed videos. Directly applying general VSR approaches leads to the failure of improving practical videos, especially when frames are highly compressed at a low bit rate. Recently, diffusion models have achieved superior performance in low-level visual tasks, and their high-realism generation capability enables them to be applied in VSR. To synthesize more compression-lost details and refine temporal consistency, we propose a novel Spatial Degradation-Aware and Temporal Consistent (SDATC) diffusion model for compressed VSR. Specifically, we introduce a distortion Control module (DCM) to modulate diffusion model inputs and guide the generation. Next, the diffusion model executes the denoising process for texture generation with fine-tuned spatial prompt-based compression-aware module (PCAM) and spatio-temporal attention module (STAM). PCAM extracts features to encode specific compression information dynamically. STAM extends the spatial attention mechanism to a spatio-temporal dimension for capturing temporal correlation. Extensive experimental results on benchmark datasets demonstrate the effectiveness of the proposed modules in enhancing compressed videos.
Abstract（参考訳）: ストレージと帯域幅の制限のため、インターネットに保存および送信されるビデオは通常、低解像度および圧縮ノイズで低品質である。ビデオ超解像(VSR)はビデオ解像度を向上させるための効率的な手法であるが、比較的VSR法は圧縮ビデオに焦点を当てている。一般的なVSRアプローチを直接適用すると、特にフレームが低ビットレートで高度に圧縮されている場合、実用的なビデオを改善することができない。近年、拡散モデルは低レベル視覚タスクにおいて優れた性能を達成しており、その高現実性生成能力によりVSRに適用することができる。より圧縮損失の詳細を合成し、時間的整合性を洗練するために、圧縮VSRのための空間劣化・時間一貫性(SDATC)拡散モデルを提案する。具体的には、拡散モデルの入力を変調し、生成を誘導する歪み制御モジュール(DCM)を導入する。次に、拡散モデルは、微調整空間プロンプトベースの圧縮認識モジュール(PCAM)と時空間アテンションモジュール(STAM)でテクスチャ生成のためのデノナイズ処理を実行する。 PCAMは、特定の圧縮情報を動的にエンコードする機能を抽出する。 STAMは空間的注意機構を時空間次元に拡張し、時間的相関を捉える。ベンチマークデータセットの大規模な実験結果は、圧縮ビデオの強化において提案したモジュールの有効性を示す。

関連論文リスト

MTC-VAE: Multi-Level Temporal Compression with Content Awareness [54.85288415164888]
Latent Video Diffusion Models (LVDMs) は可変オートエンコーダ (VAEs) を使ってビデオをコンパクトな遅延表現に圧縮する。固定圧縮率VAEを多段階時間圧縮をサポートするモデルに変換する手法を提案する。
論文参考訳（メタデータ） (2026-02-01T17:08:02Z)
Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文参考訳（メタデータ） (2025-11-21T03:40:45Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。 CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文参考訳（メタデータ） (2025-05-19T14:13:14Z)
Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。最先端拡散法に比べて客観的・主観的性能に優れる。
論文参考訳（メタデータ） (2025-05-13T06:51:23Z)
Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文参考訳（メタデータ） (2025-03-27T13:01:53Z)
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
FCVSR: A Frequency-aware Method for Compressed Video Super-Resolution [26.35492218473007]
本稿では,移動誘導型適応アライメントネットワークと多周波特徴改善モジュールで構成される,深帯域圧縮ビデオSRモデル(FCVSR)を提案する。提案モデルは3つの圧縮ビデオ圧縮超解像データセットで評価されている。
論文参考訳（メタデータ） (2025-02-10T13:08:57Z)
Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse [45.134271969594614]
DiffVCは拡散型知覚型ニューラルビデオ圧縮フレームワークである。基礎拡散モデルとビデオ条件符号化パラダイムを統合する。提案手法は,知覚指標と視覚的品質の両方において優れた性能を提供することを示す。
論文参考訳（メタデータ） (2025-01-23T10:23:04Z)
Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。時間圧縮を強化するための代替手法を提案する。本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文参考訳（メタデータ） (2025-01-09T18:55:15Z)
VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文参考訳（メタデータ） (2024-12-16T01:28:04Z)
Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文参考訳（メタデータ） (2024-04-06T22:08:20Z)
Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-25T17:59:26Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文参考訳（メタデータ） (2023-03-08T13:15:19Z)
Learned Video Compression via Heterogeneous Deformable Compensation Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-07-11T02:31:31Z)
COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文参考訳（メタデータ） (2021-05-04T01:24:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。