論文の概要: Versatile Learned Video Compression
- arxiv url: http://arxiv.org/abs/2111.03386v1
- Date: Fri, 5 Nov 2021 10:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:42:02.317391
- Title: Versatile Learned Video Compression
- Title(参考訳): 汎用学習ビデオ圧縮
- Authors: Runsen Feng, Zongyu Guo, Zhizheng Zhang, Zhibo Chen
- Abstract要約: 本稿では,可能な全ての予測モードをサポートするために,一つのモデルを用いた多目的学習ビデオ圧縮(VLVC)フレームワークを提案する。
具体的には、多目的圧縮を実現するために、まず複数の3次元運動ベクトル場を適用した動き補償モジュールを構築する。
フロー予測モジュールは, ボクセルフローの伝送コストを大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 26.976302025254043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned video compression methods have demonstrated great promise in catching
up with traditional video codecs in their rate-distortion (R-D) performance.
However, existing learned video compression schemes are limited by the binding
of the prediction mode and the fixed network framework. They are unable to
support various inter prediction modes and thus inapplicable for various
scenarios. In this paper, to break this limitation, we propose a versatile
learned video compression (VLVC) framework that uses one model to support all
possible prediction modes. Specifically, to realize versatile compression, we
first build a motion compensation module that applies multiple 3D motion vector
fields (i.e., voxel flows) for weighted trilinear warping in spatial-temporal
space. The voxel flows convey the information of temporal reference position
that helps to decouple inter prediction modes away from framework designing.
Secondly, in case of multiple-reference-frame prediction, we apply a flow
prediction module to predict accurate motion trajectories with a unified
polynomial function. We show that the flow prediction module can largely reduce
the transmission cost of voxel flows. Experimental results demonstrate that our
proposed VLVC not only supports versatile compression in various settings but
also achieves comparable R-D performance with the latest VVC standard in terms
of MS-SSIM.
- Abstract(参考訳): 学習したビデオ圧縮手法は、従来のビデオコーデックのr-d性能に追いつくことに大きな期待を寄せている。
しかし、既存の学習ビデオ圧縮方式は、予測モードと固定ネットワークフレームワークの結合によって制限される。
様々な相互予測モードをサポートできないため、さまざまなシナリオに適用できない。
本稿では,この制限を破るために,一つのモデルを用いて全ての予測モードをサポートする多目的学習ビデオ圧縮(VLVC)フレームワークを提案する。
具体的には,空間-時空間における重み付き三重項ゆがみに対して,複数の3次元運動ベクトル場(すなわちボクセル流)を適用する運動補償モジュールを構築した。
voxelフローは、フレーム設計から予測モードを切り離すのに役立つ時間的参照位置の情報を伝達する。
次に,複数参照フレーム予測を行う場合,フロー予測モジュールを適用し,多項式関数を統一した正確な動き軌跡予測を行う。
フロー予測モジュールは, ボクセルフローの伝送コストを大幅に削減できることを示す。
実験の結果,提案するVLVCは様々な設定で多目的圧縮をサポートするだけでなく,MS-SSIMの点で最新のVVC標準と同等なR-D性能を実現していることがわかった。
関連論文リスト
- U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation [9.528405963599997]
ポイントクラウドビデオ(PCV)は、多くの新興アプリケーションを持つダイナミックシーンの汎用的な3D表現である。
本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:17:01Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - MMVC: Learned Multi-Mode Video Compression with Block-based Prediction
Mode Selection and Density-Adaptive Entropy Coding [21.147001610347832]
動作パターンに適応した特徴領域予測のための最適モードを選択するマルチモードビデオ圧縮フレームワークを提案する。
エントロピー符号化では、高密度かつスパースな後量子化残差ブロックを考慮し、任意のラン長符号化を適用して圧縮率を向上させる。
現状の映像圧縮方式や標準コーデックと比較すると,PSNRとMS-SSIMで測定したより優れた,あるいは競争的な結果が得られる。
論文 参考訳(メタデータ) (2023-04-05T07:37:48Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - FVC: A New Framework towards Deep Video Compression in Feature Space [21.410266039564803]
特徴空間におけるすべての主要な操作(動き推定、動き圧縮、動き補償、残差圧縮)を実行することで特徴空間ビデオ符号化ネットワーク(FVC)を提案する。
提案フレームワークは,HEVC,UVG,VTL,MCL-JCVを含む4つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-20T08:55:32Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - M-LVC: Multiple Frames Prediction for Learned Video Compression [111.50760486258993]
低レイテンシシナリオのためのエンドツーエンドの学習ビデオ圧縮方式を提案する。
提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。
実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-21T20:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。