論文の概要: Deep Video Coding with Dual-Path Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2111.14474v1
- Date: Mon, 29 Nov 2021 11:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 18:04:44.735227
- Title: Deep Video Coding with Dual-Path Generative Adversarial Network
- Title(参考訳): Dual-Path Generative Adversarial Networkを用いたディープビデオ符号化
- Authors: Tiesong Zhao, Weize Feng, Hongji Zeng, Yuzhen Niu, Jiaying Liu
- Abstract要約: 本稿では,DGVC(Double-path Generative Adversarial Network-based Video)という,効率的なコーデックを提案する。
我々のDGVCは、PSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減する。
- 参考スコア(独自算出の注目度): 39.19042551896408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep-learning-based video coding has attracted substantial attention for
its great potential to squeeze out the spatial-temporal redundancies of video
sequences. This paper proposes an efficient codec namely dual-path generative
adversarial network-based video codec (DGVC). First, we propose a dual-path
enhancement with generative adversarial network (DPEG) to reconstruct the
compressed video details. The DPEG consists of an $\alpha$-path of auto-encoder
and convolutional long short-term memory (ConvLSTM), which facilitates the
structure feature reconstruction with a large receptive field and multi-frame
references, and a $\beta$-path of residual attention blocks, which facilitates
the reconstruction of local texture features. Both paths are fused and
co-trained by a generative-adversarial process. Second, we reuse the DPEG
network in both motion compensation and quality enhancement modules, which are
further combined with motion estimation and entropy coding modules in our DGVC
framework. Third, we employ a joint training of deep video compression and
enhancement to further improve the rate-distortion (RD) performance. Compared
with x265 LDP very fast mode, our DGVC reduces the average bit-per-pixel (bpp)
by 39.39%/54.92% at the same PSNR/MS-SSIM, which outperforms the state-of-the
art deep video codecs by a considerable margin.
- Abstract(参考訳): 深層学習に基づくビデオ符号化は、ビデオシーケンスの空間的時間的冗長性を取り除く大きな可能性を秘めている。
本稿では,DGVC (Double-path generative adversarial network-based video codec) という効率的なコーデックを提案する。
まず、圧縮された映像の詳細を再構成するために、DPEG(Generative Adversarial Network)を用いたデュアルパス拡張を提案する。
DPEGは、自動エンコーダと畳み込み長短期メモリ(ConvLSTM)の$\alpha$-pathと、大きな受容領域と多フレーム参照による構造的特徴再構成を容易にする$\beta$-pathと、局所的なテクスチャ特徴の再構築を容易にする$\beta$-pathで構成されている。
どちらの経路も融合され、生成的-敵対的プロセスによって訓練される。
第2に、DPEGネットワークを動作補償と品質向上モジュールの両方で再利用し、さらにDGVCフレームワークの動作推定とエントロピー符号化モジュールと組み合わせる。
第3に,レート歪み(RD)性能の向上のために,ディープビデオ圧縮とエンハンスメントの併用トレーニングを実施している。
我々のDGVCは、x265 LDPの非常に高速なモードと比較して、同じPSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減し、最先端のディープビデオコーデックをかなり上回っている。
関連論文リスト
- Boosting Neural Representations for Videos with a Conditional Decoder [29.282744018755558]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z) - CVEGAN: A Perceptually-inspired GAN for Compressed Video Enhancement [15.431248645312309]
CVEGAN(Compressed Video Quality Enhancement)のための新しいジェネレーティブ・アドバイザリアル・ネットワークを提案する。
CVEGANジェネレータは、新しいMul2Resブロック(複数レベルの残留学習枝を持つ)、強化された残留非局所ブロック(ERNB)、拡張された畳み込みブロックアテンションモジュール(ECBAM)の恩恵を受けている。
トレーニング戦略は、相対論的球面GAN(ReSphereGAN)トレーニング手法と新しい知覚的損失関数を併用するために、特にビデオ圧縮アプリケーションのために再設計されている。
論文 参考訳(メタデータ) (2020-11-18T10:24:38Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。