論文の概要: Hierarchical B-frame Video Coding for Long Group of Pictures
- arxiv url: http://arxiv.org/abs/2406.16544v1
- Date: Mon, 24 Jun 2024 11:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:04:12.043117
- Title: Hierarchical B-frame Video Coding for Long Group of Pictures
- Title(参考訳): 長大画像群のための階層的Bフレームビデオ符号化
- Authors: Ivan Kirillov, Denis Parkhomenko, Kirill Chernyshev, Alexander Pletnev, Yibo Shi, Kai Lin, Dmitry Babin,
- Abstract要約: 本稿では、フレームの長いシーケンスでのトレーニング、レートアロケーション、推論によるコンテンツ適応を組み合わせたランダムアクセスのためのエンドツーエンドの学習ビデオを提案する。
一般的なテスト条件下では、ビデオのクラスによっては、YUV-PSNR BD-Rateの点でVTMに匹敵する結果が得られる。
平均して、VMAFとYUV BD-Ratesの点で、オープンLDとRAのエンドツーエンドソリューションを上回っている。
- 参考スコア(独自算出の注目度): 42.229439873835254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learned video compression methods already outperform VVC in the low-delay (LD) case, but the random-access (RA) scenario remains challenging. Most works on learned RA video compression either use HEVC as an anchor or compare it to VVC in specific test conditions, using RGB-PSNR metric instead of Y-PSNR and avoiding comprehensive evaluation. Here, we present an end-to-end learned video codec for random access that combines training on long sequences of frames, rate allocation designed for hierarchical coding and content adaptation on inference. We show that under common test conditions (JVET-CTC), it achieves results comparable to VTM (VVC reference software) in terms of YUV-PSNR BD-Rate on some classes of videos, and outperforms it on almost all test sets in terms of VMAF BD-Rate. On average it surpasses open LD and RA end-to-end solutions in terms of VMAF and YUV BD-Rates.
- Abstract(参考訳): 学習ビデオ圧縮法は、低遅延(LD)の場合ではVVCよりも優れているが、ランダムアクセス(RA)のシナリオは依然として難しい。
学習されたRAビデオ圧縮のほとんどは、HEVCをアンカーとして使うか、特定のテスト条件でVVCと比較する。
本稿では、フレームの長いシーケンスでのトレーニング、階層的符号化のためのレートアロケーション、推論によるコンテンツ適応を組み合わせたランダムアクセスのためのエンドツーエンド学習ビデオコーデックを提案する。
共通テスト条件 (JVET-CTC) 下では、ビデオのクラスによっては、YUV-PSNR BD-RateでVTM(VVC参照ソフトウェア)に匹敵する結果が得られ、VMAF BD-Rateではほぼ全てのテストセットで性能が向上することを示す。
平均して、VMAFとYUV BD-Ratesの点で、オープンLDとRAのエンドツーエンドソリューションを上回っている。
関連論文リスト
- Immersive Video Compression using Implicit Neural Representations [4.13899730757205]
MV-HiNeRVは最先端のINRベースのビデオHiNeRVの拡張版である。
ビュー毎に異なる機能グリッドのグループを学習するためにモデルを修正し、学習したネットワークパラメータをすべてのビューで共有しました。
提案手法は,MPEG Immersive Video (MIV) Common Test Conditionsにおいて,マルチビューテクスチャと深度ビデオの圧縮に用いる。
その結果、MV-HiNeRV は TMIV よりも 72.33% に優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-02T17:49:31Z) - Accelerating Learnt Video Codecs with Gradient Decay and Layer-wise
Distillation [17.980800481385195]
本稿では, 勾配減衰と適応層ワイド蒸留に基づく新しいモデル非依存プルーニング手法を提案する。
その結果,BD-PSNRでは最大65%のMACと2倍のスピードアップ,0.3dB未満のBD-PSNRが得られた。
論文 参考訳(メタデータ) (2023-12-05T09:26:09Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。