論文の概要: End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation
- arxiv url: http://arxiv.org/abs/2108.04103v1
- Date: Thu, 5 Aug 2021 19:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:16:48.334641
- Title: End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation
- Title(参考訳): 複合時空間表現を用いたエンドツーエンドニューラルビデオ符号化
- Authors: Haojie Liu, Ming Lu, Zhiqi Chen, Xun Cao, Zhan Ma, Yao Wang
- Abstract要約: 本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
- 参考スコア(独自算出の注目度): 33.54844063875569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed rapid advances in learnt video coding. Most
algorithms have solely relied on the vector-based motion representation and
resampling (e.g., optical flow based bilinear sampling) for exploiting the
inter frame redundancy. In spite of the great success of adaptive kernel-based
resampling (e.g., adaptive convolutions and deformable convolutions) in video
prediction for uncompressed videos, integrating such approaches with
rate-distortion optimization for inter frame coding has been less successful.
Recognizing that each resampling solution offers unique advantages in regions
with different motion and texture characteristics, we propose a hybrid motion
compensation (HMC) method that adaptively combines the predictions generated by
these two approaches. Specifically, we generate a compound spatiotemporal
representation (CSTR) through a recurrent information aggregation (RIA) module
using information from the current and multiple past frames. We further design
a one-to-many decoder pipeline to generate multiple predictions from the CSTR,
including vector-based resampling, adaptive kernel-based resampling,
compensation mode selection maps and texture enhancements, and combines them
adaptively to achieve more accurate inter prediction. Experiments show that our
proposed inter coding system can provide better motion-compensated prediction
and is more robust to occlusions and complex motions. Together with jointly
trained intra coder and residual coder, the overall learnt hybrid coder yields
the state-of-the-art coding efficiency in low-delay scenario, compared to the
traditional H.264/AVC and H.265/HEVC, as well as recently published
learning-based methods, in terms of both PSNR and MS-SSIM metrics.
- Abstract(参考訳): 近年、学習ビデオコーディングの急速な進歩が見られた。
ほとんどのアルゴリズムは、フレーム間の冗長性を利用するためにベクトルベースの動き表現と再サンプリング(例えば、光学フローに基づくバイリニアサンプリング)のみに頼っている。
非圧縮ビデオの映像予測における適応型カーネルベースの再サンプリング(適応畳み込みや変形可能な畳み込みなど)の成功にもかかわらず、フレーム間符号化におけるレートゆがみ最適化と統合する手法は、あまり成功していない。
それぞれの再サンプリングソリューションは, 異なる運動特性とテクスチャ特性を持つ領域に特有の利点があることを認識し, これら2つのアプローチによって生成される予測を適応的に組み合わせたハイブリッドモーション補償法を提案する。
具体的には、現在および複数過去のフレームからの情報を用いて、繰り返し情報集約(RIA)モジュールを介して複合時空間表現(CSTR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含むCSTRから複数の予測を生成する1対多デコーダパイプラインを設計し、それらを適応的に組み合わせてより正確な相互予測を実現する。
実験により,提案するインターコーディングシステムはより優れた動き補償予測を提供し,咬合や複雑な動きに対してより頑健であることが示された。
共同で訓練されたイントラコーダと残留コーダとともに、学習用ハイブリッドコーダは従来のH.264/AVCとH.265/HEVCと比較して、PSNRとMS-SSIMの両方のメトリクスで最先端のコーディング効率が得られる。
関連論文リスト
- Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。