論文の概要: Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model
- arxiv url: http://arxiv.org/abs/2006.13560v4
- Date: Sun, 6 Dec 2020 10:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:16:33.760885
- Title: Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model
- Title(参考訳): リカレントオートエンコーダとリカレント確率モデルを用いたビデオ圧縮の学習
- Authors: Ren Yang, Fabian Mentzer, Luc Van Gool and Radu Timofte
- Abstract要約: 本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
- 参考スコア(独自算出の注目度): 164.7489982837475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past few years have witnessed increasing interests in applying deep
learning to video compression. However, the existing approaches compress a
video frame with only a few number of reference frames, which limits their
ability to fully exploit the temporal correlation among video frames. To
overcome this shortcoming, this paper proposes a Recurrent Learned Video
Compression (RLVC) approach with the Recurrent Auto-Encoder (RAE) and Recurrent
Probability Model (RPM). Specifically, the RAE employs recurrent cells in both
the encoder and decoder. As such, the temporal information in a large range of
frames can be used for generating latent representations and reconstructing
compressed outputs. Furthermore, the proposed RPM network recurrently estimates
the Probability Mass Function (PMF) of the latent representation, conditioned
on the distribution of previous latent representations. Due to the correlation
among consecutive frames, the conditional cross entropy can be lower than the
independent cross entropy, thus reducing the bit-rate. The experiments show
that our approach achieves the state-of-the-art learned video compression
performance in terms of both PSNR and MS-SSIM. Moreover, our approach
outperforms the default Low-Delay P (LDP) setting of x265 on PSNR, and also has
better performance on MS-SSIM than the SSIM-tuned x265 and the slowest setting
of x265. The codes are available at https://github.com/RenYang-home/RLVC.git.
- Abstract(参考訳): 過去数年間、ビデオ圧縮にディープラーニングを適用することへの関心が高まっている。
しかし、既存のアプローチでは、ビデオフレームを少数の参照フレームで圧縮することで、ビデオフレーム間の時間的相関を十分に活用する能力が制限されている。
そこで本研究では,リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたRLVC(Recurrent Learned Video Compression)アプローチを提案する。
具体的には、RAEはエンコーダとデコーダの両方で繰り返しセルを使用する。
このように、多くのフレームの時間情報は、潜在表現の生成と圧縮出力の再構築に使うことができる。
さらに,提案するrpmネットワークは,先行する潜在表現の分布に依存する潜在表現の確率質量関数(pmf)を反復的に推定する。
連続フレーム間の相関により、条件付きクロスエントロピーは独立したクロスエントロピーよりも低くなり、ビットレートが低下する。
実験により,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現することができた。
さらに,本手法は,PSNR上でのデフォルトの低遅延P(LDP)設定よりも優れており,SSIMで調整したx265よりもMS-SSIMの方が性能が良く,x265が遅い。
コードはhttps://github.com/renyang-home/rlvc.gitで入手できる。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - NVRC: Neural Video Representation Compression [13.131842990481038]
我々は、新しいINRベースのビデオ圧縮フレームワーク、Neural Video Representation Compression (NVRC)を提案する。
NVRCは初めて、INRベースのビデオをエンドツーエンドで最適化することができる。
実験の結果,NVRCは従来のベンチマークエントロピーよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T16:57:12Z) - Extreme Video Compression with Pre-trained Diffusion Models [11.898317376595697]
本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
論文 参考訳(メタデータ) (2024-02-14T04:23:05Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-11-13T19:53:14Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - Temporal Context Mining for Learned Video Compression [25.348411353589878]
我々は、学習の質の向上と時間的文脈の活用に特化して、エンドツーエンドの学習ビデオ圧縮に対処する。
時間的コンテキストマイニングでは、以前に再構成されたフレームだけでなく、プロパゲーションされた特徴を一般化されたデコードされた画像バッファに格納することを提案する。
並列化不フレンドリな自己回帰エントロピーモデルを捨てて,より実用的な復号時間を求める。
論文 参考訳(メタデータ) (2021-11-27T08:55:16Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - M-LVC: Multiple Frames Prediction for Learned Video Compression [111.50760486258993]
低レイテンシシナリオのためのエンドツーエンドの学習ビデオ圧縮方式を提案する。
提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。
実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-21T20:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。