論文の概要: Hierarchical B-frame Video Coding for Long Group of Pictures
- arxiv url: http://arxiv.org/abs/2406.16544v1
- Date: Mon, 24 Jun 2024 11:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:04:12.043117
- Title: Hierarchical B-frame Video Coding for Long Group of Pictures
- Title(参考訳): 長大画像群のための階層的Bフレームビデオ符号化
- Authors: Ivan Kirillov, Denis Parkhomenko, Kirill Chernyshev, Alexander Pletnev, Yibo Shi, Kai Lin, Dmitry Babin,
- Abstract要約: 本稿では、フレームの長いシーケンスでのトレーニング、レートアロケーション、推論によるコンテンツ適応を組み合わせたランダムアクセスのためのエンドツーエンドの学習ビデオを提案する。
一般的なテスト条件下では、ビデオのクラスによっては、YUV-PSNR BD-Rateの点でVTMに匹敵する結果が得られる。
平均して、VMAFとYUV BD-Ratesの点で、オープンLDとRAのエンドツーエンドソリューションを上回っている。
- 参考スコア(独自算出の注目度): 42.229439873835254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learned video compression methods already outperform VVC in the low-delay (LD) case, but the random-access (RA) scenario remains challenging. Most works on learned RA video compression either use HEVC as an anchor or compare it to VVC in specific test conditions, using RGB-PSNR metric instead of Y-PSNR and avoiding comprehensive evaluation. Here, we present an end-to-end learned video codec for random access that combines training on long sequences of frames, rate allocation designed for hierarchical coding and content adaptation on inference. We show that under common test conditions (JVET-CTC), it achieves results comparable to VTM (VVC reference software) in terms of YUV-PSNR BD-Rate on some classes of videos, and outperforms it on almost all test sets in terms of VMAF BD-Rate. On average it surpasses open LD and RA end-to-end solutions in terms of VMAF and YUV BD-Rates.
- Abstract(参考訳): 学習ビデオ圧縮法は、低遅延(LD)の場合ではVVCよりも優れているが、ランダムアクセス(RA)のシナリオは依然として難しい。
学習されたRAビデオ圧縮のほとんどは、HEVCをアンカーとして使うか、特定のテスト条件でVVCと比較する。
本稿では、フレームの長いシーケンスでのトレーニング、階層的符号化のためのレートアロケーション、推論によるコンテンツ適応を組み合わせたランダムアクセスのためのエンドツーエンド学習ビデオコーデックを提案する。
共通テスト条件 (JVET-CTC) 下では、ビデオのクラスによっては、YUV-PSNR BD-RateでVTM(VVC参照ソフトウェア)に匹敵する結果が得られ、VMAF BD-Rateではほぼ全てのテストセットで性能が向上することを示す。
平均して、VMAFとYUV BD-Ratesの点で、オープンLDとRAのエンドツーエンドソリューションを上回っている。
関連論文リスト
- On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs [7.714092783675679]
Bjontegaard Delta (BD)測度は、異なるコーデック間でのレート歪み(RD)性能の変動を評価し定量化するために広く用いられている。
我々は、学習ビデオ圧縮コミュニティにおける、複数のビデオの平均RD曲線に基づくデータセット平均BD値の計算が、誤解を招く可能性があると主張している。
論文 参考訳(メタデータ) (2024-09-13T12:30:15Z) - NVRC: Neural Video Representation Compression [13.131842990481038]
我々は、新しいINRベースのビデオ圧縮フレームワーク、Neural Video Representation Compression (NVRC)を提案する。
NVRCは初めて、INRベースのビデオをエンドツーエンドで最適化することができる。
実験の結果,NVRCは従来のベンチマークエントロピーよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T16:57:12Z) - Benchmarking Conventional and Learned Video Codecs with a Low-Delay Configuration [11.016119119250765]
本稿では,低遅延構成に基づく従来型および学習型ビデオ符号化手法の比較研究を行う。
その結果, YCbCr 4:2:0色空間におけるAOMおよびMPEG共通試験条件で定義された試験系列について, 公平かつ有意義な比較を行うことができた。
評価結果から,JVETのECMコーデックは,テスト対象のすべてのコーデックの中で,最高の全体的な符号化性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-08-09T12:55:23Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。