論文の概要: Compression-Realized Deep Structural Network for Video Quality Enhancement
- arxiv url: http://arxiv.org/abs/2405.06342v1
- Date: Fri, 10 May 2024 09:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:07:56.587353
- Title: Compression-Realized Deep Structural Network for Video Quality Enhancement
- Title(参考訳): 映像品質向上のための圧縮強化深部構造ネットワーク
- Authors: Hanchi Sun, Xiaohong Liu, Xinyang Jiang, Yifei Shen, Dongsheng Li, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
新しいパラダイムは、より"意識的"な品質向上プロセスのために緊急に必要である。
本稿では,古典的圧縮領域における3つの主要なプロセスに整合した3つの帰納的バイアスを導入し,CRDS(Compression-Realize Deep Structure Network)を提案する。
- 参考スコア(独自算出の注目度): 78.13020206633524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the task of quality enhancement for compressed videos. Although deep network-based video restorers achieve impressive progress, most of the existing methods lack a structured design to optimally leverage the priors within compression codecs. Since the quality degradation of the video is primarily induced by the compression algorithm, a new paradigm is urgently needed for a more "conscious" process of quality enhancement. As a result, we propose the Compression-Realize Deep Structural Network (CRDS), introducing three inductive biases aligned with the three primary processes in the classic compression codec, merging the strengths of classical encoder architecture with deep network capabilities. Inspired by the residual extraction and domain transformation process in the codec, a pre-trained Latent Degradation Residual Auto-Encoder is proposed to transform video frames into a latent feature space, and the mutual neighborhood attention mechanism is integrated for precise motion estimation and residual extraction. Furthermore, drawing inspiration from the quantization noise distribution of the codec, CRDS proposes a novel Progressive Denoising framework with intermediate supervision that decomposes the quality enhancement into a series of simpler denoising sub-tasks. Experimental results on datasets like LDV 2.0 and MFQE 2.0 indicate our approach surpasses state-of-the-art models.
- Abstract(参考訳): 本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
ディープネットワークベースのビデオレコーダは目覚ましい進歩を遂げるが、既存の手法の多くは圧縮コーデックの事前処理を最適に活用するための構造化設計を欠いている。
ビデオの品質劣化は主に圧縮アルゴリズムによって引き起こされるため、より「意識的な」品質向上プロセスのためには、新しいパラダイムが緊急に必要となる。
その結果,従来の圧縮コーデックの3つの主要なプロセスに整合した3つの帰納的バイアスを導入し,従来のエンコーダアーキテクチャの強みと深いネットワーク機能とを融合するCRDS(Compression-Realize Deep Structure Network)を提案する。
コーデック内の残差抽出およびドメイン変換プロセスにインスパイアされ、ビデオフレームを潜在特徴空間に変換するために事前訓練された遅延分解残差自動エンコーダが提案され、各近傍の注意機構が正確な動き推定と残差抽出のために統合される。
さらに、コーデックの量子化雑音分布からインスピレーションを得たCRDSは、品質向上を一連の簡易な減音サブタスクに分解する中間監督型プログレッシブ・デノナイジング・フレームワークを提案する。
LDV 2.0やMFQE 2.0のようなデータセットの実験結果は、我々のアプローチが最先端のモデルを上回ることを示している。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - High Visual-Fidelity Learned Video Compression [6.609832462227998]
我々は,HVFVC(High Visual-Fidelity Learned Video Compression framework)を提案する。
具体的には,新たに出現した地域での貧弱な復興問題に対処するために,信頼度に基づく新しい特徴再構成手法を設計する。
広汎な実験により提案したHVFVCは、50%しか必要とせず、最新のVVC標準よりも優れた知覚品質が得られることが示された。
論文 参考訳(メタデータ) (2023-10-07T03:27:45Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。