論文の概要: Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression
- arxiv url: http://arxiv.org/abs/2207.05894v1
- Date: Wed, 13 Jul 2022 00:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 16:09:24.672429
- Title: Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression
- Title(参考訳): ニューラルビデオ圧縮のためのハイブリッド空間-時間エントロピーモデル
- Authors: Jiahao Li, Bin Li, Yan Lu
- Abstract要約: 本稿では,空間的依存と時間的依存の両方を効率的に捉える強力なエントロピーモデルを提案する。
我々のエントロピーモデルでは,最大圧縮比を用いたH266(VTM)と比較して,UVGデータセットの18.2%の節約が可能である。
- 参考スコア(独自算出の注目度): 25.96187914295921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For neural video codec, it is critical, yet challenging, to design an
efficient entropy model which can accurately predict the probability
distribution of the quantized latent representation. However, most existing
video codecs directly use the ready-made entropy model from image codec to
encode the residual or motion, and do not fully leverage the spatial-temporal
characteristics in video. To this end, this paper proposes a powerful entropy
model which efficiently captures both spatial and temporal dependencies. In
particular, we introduce the latent prior which exploits the correlation among
the latent representation to squeeze the temporal redundancy. Meanwhile, the
dual spatial prior is proposed to reduce the spatial redundancy in a
parallel-friendly manner. In addition, our entropy model is also versatile.
Besides estimating the probability distribution, our entropy model also
generates the quantization step at spatial-channel-wise. This content-adaptive
quantization mechanism not only helps our codec achieve the smooth rate
adjustment in single model but also improves the final rate-distortion
performance by dynamic bit allocation. Experimental results show that, powered
by the proposed entropy model, our neural codec can achieve 18.2% bitrate
saving on UVG dataset when compared with H.266 (VTM) using the highest
compression ratio configuration. It makes a new milestone in the development of
neural video codec. The codes are at https://github.com/microsoft/DCVC.
- Abstract(参考訳): ニューラルビデオコーデックでは、量子化潜在表現の確率分布を正確に予測できる効率的なエントロピーモデルを設計することが重要であるが、難しい。
しかし、既存のビデオコーデックのほとんどは、画像コーデックからの既製のエントロピーモデルを直接使用して、残差や動きをエントロピーし、ビデオの空間的時間的特性を十分に活用していない。
そこで本稿では,空間依存と時間依存の両方を効率的に捉える強力なエントロピーモデルを提案する。
特に,潜時表現間の相関を利用して時間的冗長性を抑える潜時前処理を導入する。
一方, 空間冗長性を並列に低減するために, 二重空間前置法が提案されている。
さらに、我々のエントロピーモデルも多用途である。
確率分布の推定に加えて,我々のエントロピーモデルも空間チャネル的に量子化ステップを生成する。
このコンテント適応量子化機構は,単一モデルでのスムースレート調整を実現するだけでなく,動的ビット割り当てによる最終的なレート分散性能を向上させる。
実験の結果,提案するエントロピーモデルにより,最大圧縮比構成のh.266(vtm)と比較して,uvgデータセット上で18.2%のビットレートの節約が可能となった。
ニューラルビデオコーデックの開発において、新たなマイルストーンを達成している。
コードはhttps://github.com/microsoft/DCVCにある。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Frequency Disentangled Features in Neural Image Compression [13.016298207860974]
ニューラル画像圧縮ネットワークは、エントロピーモデルが潜在コードの真の分布とどの程度うまく一致しているかによって制御される。
本稿では,緩和されたスカラー量子化が低ビットレートを実現するのに役立つ特徴レベルの周波数歪みを提案する。
提案するネットワークは,手作業によるコーデックだけでなく,空間的自己回帰エントロピーモデル上に構築されたニューラルネットワークベースのコーデックよりも優れている。
論文 参考訳(メタデータ) (2023-08-04T14:55:44Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - Instance-Adaptive Video Compression: Improving Neural Codecs by Training
on the Test Set [14.89208053104896]
本稿では,インスタンス適応学習に基づくビデオ圧縮アルゴリズムを提案する。
送信される各ビデオシーケンスに対して、事前訓練された圧縮モデルを微調整する。
ネットワークサイズを70%削減しても,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-19T16:25:34Z) - Overfitting for Fun and Profit: Instance-Adaptive Data Compression [20.764189960709164]
ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法より優れていることが示されている。
本稿では,この概念を極端に取り入れ,全モデルを単一ビデオに適用し,潜在表現とともにモデル更新を送信する。
エンコーダのみの微調整に関して,フルモデル適応によりRD$性能が1dB向上することが実証された。
論文 参考訳(メタデータ) (2021-01-21T15:58:58Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。