論文の概要: Reversing the Damage: A QP-Aware Transformer-Diffusion Approach for 8K Video Restoration under Codec Compression
- arxiv url: http://arxiv.org/abs/2412.08912v1
- Date: Thu, 12 Dec 2024 03:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:31:22.511286
- Title: Reversing the Damage: A QP-Aware Transformer-Diffusion Approach for 8K Video Restoration under Codec Compression
- Title(参考訳): コーデック圧縮下における8Kビデオ再生のためのQP対応変圧器拡散法
- Authors: Ali Mollaahmadi Dehaghi, Reza Razavi, Mohammad Moshirpour,
- Abstract要約: DiQPは8Kビデオ品質を圧縮によって劣化させる新しいトランスフォーマー拡散モデルである。
我々のアーキテクチャは、拡張されたウィンドウ機構で長距離依存関係をキャプチャするトランスフォーマーのパワーを組み合わせています。
我々のモデルは最先端の手法、特に4Kや8Kのような高精細度ビデオよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we introduce DiQP; a novel Transformer-Diffusion model for restoring 8K video quality degraded by codec compression. To the best of our knowledge, our model is the first to consider restoring the artifacts introduced by various codecs (AV1, HEVC) by Denoising Diffusion without considering additional noise. This approach allows us to model the complex, non-Gaussian nature of compression artifacts, effectively learning to reverse the degradation. Our architecture combines the power of Transformers to capture long-range dependencies with an enhanced windowed mechanism that preserves spatiotemporal context within groups of pixels across frames. To further enhance restoration, the model incorporates auxiliary "Look Ahead" and "Look Around" modules, providing both future and surrounding frame information to aid in reconstructing fine details and enhancing overall visual quality. Extensive experiments on different datasets demonstrate that our model outperforms state-of-the-art methods, particularly for high-resolution videos such as 4K and 8K, showcasing its effectiveness in restoring perceptually pleasing videos from highly compressed sources.
- Abstract(参考訳): 本稿では,コーデック圧縮により劣化した8Kビデオ品質を復元する新しいトランスフォーマー拡散モデルであるDiQPを紹介する。
我々の知る限り、我々のモデルは、様々なコーデック(AV1, HEVC)によって導入されたアーティファクトを、追加のノイズを考慮せずにデノイングディフュージョンによって復元することを考える最初のものである。
このアプローチは、圧縮アーティファクトの複雑で非ガウス的な性質をモデル化し、分解を効果的に学習することを可能にする。
我々のアーキテクチャは、長距離依存関係をキャプチャするTransformerのパワーと、フレーム間の画素群内の時空間的コンテキストを保存する拡張されたウィンドウ機構を組み合わせる。
復元をさらに強化するため、モデルには補助的な"Look Ahead"と"Look Around"モジュールが組み込まれており、将来と周辺の両方のフレーム情報を提供し、詳細の再構築と全体的な視覚的品質の向上に役立てている。
特に4Kや8Kのような高精細度ビデオでは,高圧縮音源からの知覚的快楽映像の復元に有効であることを示す。
関連論文リスト
- Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文 参考訳(メタデータ) (2025-01-09T18:55:15Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - VCISR: Blind Single Image Super-Resolution with Video Compression
Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。
提案手法は既存の画像データセットに適用可能である。
SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文 参考訳(メタデータ) (2023-11-02T05:24:19Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Early Exit or Not: Resource-Efficient Blind Quality Enhancement for
Compressed Images [54.40852143927333]
ロスシー画像圧縮は、通信帯域を節約するために広範に行われ、望ましくない圧縮アーティファクトをもたらす。
圧縮画像に対する資源効率の高いブラインド品質向上手法(RBQE)を提案する。
提案手法は, 評価された画像の品質に応じて, 自動的にエンハンスメントを終了するか, 継続するかを決定することができる。
論文 参考訳(メタデータ) (2020-06-30T07:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。