論文の概要: Deep Video Coding with Dual-Path Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2111.14474v1
- Date: Mon, 29 Nov 2021 11:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 18:04:44.735227
- Title: Deep Video Coding with Dual-Path Generative Adversarial Network
- Title(参考訳): Dual-Path Generative Adversarial Networkを用いたディープビデオ符号化
- Authors: Tiesong Zhao, Weize Feng, Hongji Zeng, Yuzhen Niu, Jiaying Liu
- Abstract要約: 本稿では,DGVC(Double-path Generative Adversarial Network-based Video)という,効率的なコーデックを提案する。
我々のDGVCは、PSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減する。
- 参考スコア(独自算出の注目度): 39.19042551896408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep-learning-based video coding has attracted substantial attention for
its great potential to squeeze out the spatial-temporal redundancies of video
sequences. This paper proposes an efficient codec namely dual-path generative
adversarial network-based video codec (DGVC). First, we propose a dual-path
enhancement with generative adversarial network (DPEG) to reconstruct the
compressed video details. The DPEG consists of an $\alpha$-path of auto-encoder
and convolutional long short-term memory (ConvLSTM), which facilitates the
structure feature reconstruction with a large receptive field and multi-frame
references, and a $\beta$-path of residual attention blocks, which facilitates
the reconstruction of local texture features. Both paths are fused and
co-trained by a generative-adversarial process. Second, we reuse the DPEG
network in both motion compensation and quality enhancement modules, which are
further combined with motion estimation and entropy coding modules in our DGVC
framework. Third, we employ a joint training of deep video compression and
enhancement to further improve the rate-distortion (RD) performance. Compared
with x265 LDP very fast mode, our DGVC reduces the average bit-per-pixel (bpp)
by 39.39%/54.92% at the same PSNR/MS-SSIM, which outperforms the state-of-the
art deep video codecs by a considerable margin.
- Abstract(参考訳): 深層学習に基づくビデオ符号化は、ビデオシーケンスの空間的時間的冗長性を取り除く大きな可能性を秘めている。
本稿では,DGVC (Double-path generative adversarial network-based video codec) という効率的なコーデックを提案する。
まず、圧縮された映像の詳細を再構成するために、DPEG(Generative Adversarial Network)を用いたデュアルパス拡張を提案する。
DPEGは、自動エンコーダと畳み込み長短期メモリ(ConvLSTM)の$\alpha$-pathと、大きな受容領域と多フレーム参照による構造的特徴再構成を容易にする$\beta$-pathと、局所的なテクスチャ特徴の再構築を容易にする$\beta$-pathで構成されている。
どちらの経路も融合され、生成的-敵対的プロセスによって訓練される。
第2に、DPEGネットワークを動作補償と品質向上モジュールの両方で再利用し、さらにDGVCフレームワークの動作推定とエントロピー符号化モジュールと組み合わせる。
第3に,レート歪み(RD)性能の向上のために,ディープビデオ圧縮とエンハンスメントの併用トレーニングを実施している。
我々のDGVCは、x265 LDPの非常に高速なモードと比較して、同じPSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減し、最先端のディープビデオコーデックをかなり上回っている。
関連論文リスト
- Motion Free B-frame Coding for Neural Video Compression [0.0]
本稿では,上記の2つの典型的なアーキテクチャの欠点に対処する新しいアプローチを提案する。
モーションフリーアプローチの利点は2つある: ネットワークの符号化効率を改善し、計算複雑性を著しく低減する。
実験の結果,提案フレームワークはHEVCクラスBデータセット上でのSOTAディープ・ニューラルビデオ圧縮ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T07:03:11Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - CVEGAN: A Perceptually-inspired GAN for Compressed Video Enhancement [15.431248645312309]
CVEGAN(Compressed Video Quality Enhancement)のための新しいジェネレーティブ・アドバイザリアル・ネットワークを提案する。
CVEGANジェネレータは、新しいMul2Resブロック(複数レベルの残留学習枝を持つ)、強化された残留非局所ブロック(ERNB)、拡張された畳み込みブロックアテンションモジュール(ECBAM)の恩恵を受けている。
トレーニング戦略は、相対論的球面GAN(ReSphereGAN)トレーニング手法と新しい知覚的損失関数を併用するために、特にビデオ圧縮アプリケーションのために再設計されている。
論文 参考訳(メタデータ) (2020-11-18T10:24:38Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。