論文の概要: MMVC: Learned Multi-Mode Video Compression with Block-based Prediction
Mode Selection and Density-Adaptive Entropy Coding
- arxiv url: http://arxiv.org/abs/2304.02273v1
- Date: Wed, 5 Apr 2023 07:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:10:27.305003
- Title: MMVC: Learned Multi-Mode Video Compression with Block-based Prediction
Mode Selection and Density-Adaptive Entropy Coding
- Title(参考訳): MMVC:ブロック型予測モード選択と密度適応エントロピー符号化によるマルチモードビデオ圧縮
- Authors: Bowen Liu, Yu Chen, Rakesh Chowdary Machineni, Shiyu Liu, Hun-Seok Kim
- Abstract要約: 動作パターンに適応した特徴領域予測のための最適モードを選択するマルチモードビデオ圧縮フレームワークを提案する。
エントロピー符号化では、高密度かつスパースな後量子化残差ブロックを考慮し、任意のラン長符号化を適用して圧縮率を向上させる。
現状の映像圧縮方式や標準コーデックと比較すると,PSNRとMS-SSIMで測定したより優れた,あるいは競争的な結果が得られる。
- 参考スコア(独自算出の注目度): 21.147001610347832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based video compression has been extensively studied over the past
years, but it still has limitations in adapting to various motion patterns and
entropy models. In this paper, we propose multi-mode video compression (MMVC),
a block wise mode ensemble deep video compression framework that selects the
optimal mode for feature domain prediction adapting to different motion
patterns. Proposed multi-modes include ConvLSTM-based feature domain
prediction, optical flow conditioned feature domain prediction, and feature
propagation to address a wide range of cases from static scenes without
apparent motions to dynamic scenes with a moving camera. We partition the
feature space into blocks for temporal prediction in spatial block-based
representations. For entropy coding, we consider both dense and sparse
post-quantization residual blocks, and apply optional run-length coding to
sparse residuals to improve the compression rate. In this sense, our method
uses a dual-mode entropy coding scheme guided by a binary density map, which
offers significant rate reduction surpassing the extra cost of transmitting the
binary selection map. We validate our scheme with some of the most popular
benchmarking datasets. Compared with state-of-the-art video compression schemes
and standard codecs, our method yields better or competitive results measured
with PSNR and MS-SSIM.
- Abstract(参考訳): 学習に基づくビデオ圧縮はここ数年にわたって広く研究されてきたが、様々な動きパターンやエントロピーモデルに適応するのにはまだ限界がある。
本稿では,異なる動作パターンに適応した特徴領域予測のための最適モードを選択するブロックワイズモードアンサンブルディープビデオ圧縮フレームワークであるMMVCを提案する。
提案するマルチモードには、ConvLSTMベースの特徴領域予測、光学フロー条件付き特徴領域予測、静的シーンから動いたカメラによる動的シーンまで幅広いケースに対応するための特徴伝搬などがある。
空間的ブロックベース表現における時間的予測のために,特徴空間をブロックに分割する。
エントロピー符号化では、高密度かつスパースな後量子化残差ブロックを考慮し、任意のラン長符号化を適用して圧縮率を向上させる。
この意味では、二項密度マップで導かれる二重モードエントロピー符号化方式を用い、二項選択マップを伝送する余剰コストを超越した大幅なレート低下を提供する。
私たちはこのスキームを最も人気のあるベンチマークデータセットで検証します。
現状のビデオ圧縮方式や標準コーデックと比較すると,PSNRとMS-SSIMで測定した結果と競合する結果が得られる。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Versatile Learned Video Compression [26.976302025254043]
本稿では,可能な全ての予測モードをサポートするために,一つのモデルを用いた多目的学習ビデオ圧縮(VLVC)フレームワークを提案する。
具体的には、多目的圧縮を実現するために、まず複数の3次元運動ベクトル場を適用した動き補償モジュールを構築する。
フロー予測モジュールは, ボクセルフローの伝送コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-11-05T10:50:37Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z) - M-LVC: Multiple Frames Prediction for Learned Video Compression [111.50760486258993]
低レイテンシシナリオのためのエンドツーエンドの学習ビデオ圧縮方式を提案する。
提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。
実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-21T20:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。