論文の概要: Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model
- arxiv url: http://arxiv.org/abs/2007.04574v1
- Date: Thu, 9 Jul 2020 06:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:12:21.867983
- Title: Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model
- Title(参考訳): マルチスケールモーション補償と時空間モデルを用いたニューラルビデオ符号化
- Authors: Haojie Liu, Ming Lu, Zhan Ma, Fan Wang, Zhihuang Xie, Xun Cao, Yao
Wang
- Abstract要約: エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
- 参考スコア(独自算出の注目度): 45.46660511313426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past two decades, traditional block-based video coding has made
remarkable progress and spawned a series of well-known standards such as
MPEG-4, H.264/AVC and H.265/HEVC. On the other hand, deep neural networks
(DNNs) have shown their powerful capacity for visual content understanding,
feature extraction and compact representation. Some previous works have
explored the learnt video coding algorithms in an end-to-end manner, which show
the great potential compared with traditional methods. In this paper, we
propose an end-to-end deep neural video coding framework (NVC), which uses
variational autoencoders (VAEs) with joint spatial and temporal prior
aggregation (PA) to exploit the correlations in intra-frame pixels, inter-frame
motions and inter-frame compensation residuals, respectively. Novel features of
NVC include: 1) To estimate and compensate motion over a large range of
magnitudes, we propose an unsupervised multiscale motion compensation network
(MS-MCN) together with a pyramid decoder in the VAE for coding motion features
that generates multiscale flow fields, 2) we design a novel adaptive
spatiotemporal context model for efficient entropy coding for motion
information, 3) we adopt nonlocal attention modules (NLAM) at the bottlenecks
of the VAEs for implicit adaptive feature extraction and activation, leveraging
its high transformation capacity and unequal weighting with joint global and
local information, and 4) we introduce multi-module optimization and a
multi-frame training strategy to minimize the temporal error propagation among
P-frames. NVC is evaluated for the low-delay causal settings and compared with
H.265/HEVC, H.264/AVC and the other learnt video compression methods following
the common test conditions, demonstrating consistent gains across all popular
test sequences for both PSNR and MS-SSIM distortion metrics.
- Abstract(参考訳): 過去20年間で、従来のブロックベースのビデオコーディングは顕著な進歩を遂げ、MPEG-4、H.264/AVC、H.265/HEVCといった有名な標準が生まれた。
一方で、ディープニューラルネットワーク(dnn)は、視覚的コンテンツ理解、特徴抽出、コンパクト表現に強力な能力を示している。
以前のいくつかの研究は、学習されたビデオ符号化アルゴリズムをエンドツーエンドで検討しており、従来の方法と比べて大きな可能性を示している。
本稿では, フレーム内画素, フレーム間動き, フレーム間補償残差の相関を利用するために, 共同空間および時間的事前集約(PA)を用いた可変オートエンコーダ(VAE)を用いたエンドツーエンドのディープビデオ符号化フレームワークを提案する。
NVCの新機能には以下のものがある。
1) 広い範囲にわたる動きを推定・補償するために, マルチスケール流れ場を生成する動き特徴の符号化のためのVAEのピラミッドデコーダとともに, 教師なしマルチスケール運動補償ネットワーク(MS-MCN)を提案する。
2) 運動情報の効率的なエントロピー符号化のための新しい適応時空間文脈モデルを設計する。
3)vaesのボトルネックである非局所的注意モジュール(nlam)を暗黙的適応的特徴抽出とアクティベーションのために採用し,その高い変換能力とグローバル情報と局所情報との重み付けの不等さを生かした。
4) Pフレーム間の時間誤差の伝播を最小限に抑えるため, マルチモジュール最適化とマルチフレームトレーニング戦略を導入する。
NVCは低遅延因果条件で評価され、一般的なテスト条件に従ってH.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮手法と比較され、PSNRおよびMS-SSIMの歪み測定値において、すべての一般的なテストシーケンスに対して一貫した利得を示す。
関連論文リスト
- Motion Free B-frame Coding for Neural Video Compression [0.0]
本稿では,上記の2つの典型的なアーキテクチャの欠点に対処する新しいアプローチを提案する。
モーションフリーアプローチの利点は2つある: ネットワークの符号化効率を改善し、計算複雑性を著しく低減する。
実験の結果,提案フレームワークはHEVCクラスBデータセット上でのSOTAディープ・ニューラルビデオ圧縮ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T07:03:11Z) - PNVC: Towards Practical INR-based Video Compression [14.088444622391501]
自動エンコーダと過度に適合したソリューションを革新的に組み合わせた新しいINRベースのコーディングフレームワークであるPNVCを提案する。
PNVCはHEVC HM 18.0(LD)に対して35%以上のBDレートの節約を実現している。
論文 参考訳(メタデータ) (2024-09-02T05:31:11Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。