論文の概要: Neural Video Compression with Temporal Layer-Adaptive Hierarchical
B-frame Coding
- arxiv url: http://arxiv.org/abs/2308.15791v1
- Date: Wed, 30 Aug 2023 06:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:44:50.171253
- Title: Neural Video Compression with Temporal Layer-Adaptive Hierarchical
B-frame Coding
- Title(参考訳): 時間的階層型bフレーム符号化によるニューラルビデオ圧縮
- Authors: Yeongwoong Kim, Suyong Bahk, Seungeon Kim, Won Hee Lee, Dokwan Oh, Hui
Yong Kim
- Abstract要約: 時間層適応最適化を用いた階層的Bフレーム符号化を用いたNVCモデルを提案する。
このモデルはベースラインに対して-39.86%のBDレートを達成している。
また、単純な双方向拡張よりも最大-49.13%のBDレートゲインを持つ大きなあるいは複雑な動きを持つシーケンスの課題も解決する。
- 参考スコア(独自算出の注目度): 5.8550373172233305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural video compression (NVC) is a rapidly evolving video coding research
area, with some models achieving superior coding efficiency compared to the
latest video coding standard Versatile Video Coding (VVC). In conventional
video coding standards, the hierarchical B-frame coding, which utilizes a
bidirectional prediction structure for higher compression, had been
well-studied and exploited. In NVC, however, limited research has investigated
the hierarchical B scheme. In this paper, we propose an NVC model exploiting
hierarchical B-frame coding with temporal layer-adaptive optimization. We first
extend an existing unidirectional NVC model to a bidirectional model, which
achieves -21.13% BD-rate gain over the unidirectional baseline model. However,
this model faces challenges when applied to sequences with complex or large
motions, leading to performance degradation. To address this, we introduce
temporal layer-adaptive optimization, incorporating methods such as temporal
layer-adaptive quality scaling (TAQS) and temporal layer-adaptive latent
scaling (TALS). The final model with the proposed methods achieves an
impressive BD-rate gain of -39.86% against the baseline. It also resolves the
challenges in sequences with large or complex motions with up to -49.13% more
BD-rate gains than the simple bidirectional extension. This improvement is
attributed to the allocation of more bits to lower temporal layers, thereby
enhancing overall reconstruction quality with smaller bits. Since our method
has little dependency on a specific NVC model architecture, it can serve as a
general tool for extending unidirectional NVC models to the ones with
hierarchical B-frame coding.
- Abstract(参考訳): neural video compression (nvc) は急速に発展するビデオ符号化研究分野であり、最新のビデオ符号化標準であるvvc (vvc) よりも優れた符号化効率を達成するモデルもある。
従来のビデオ符号化では、高圧縮のために双方向予測構造を利用する階層的Bフレーム符号化がよく研究され、利用されてきた。
しかし、NVCでは、階層的Bスキームの研究が限られている。
本稿では,階層的Bフレーム符号化と時間層適応最適化を用いたNVCモデルを提案する。
まず、既存の一方向NVCモデルを双方向モデルに拡張し、一方向ベースラインモデルに対して-21.13%のBDレートゲインを達成する。
しかし、このモデルは複雑な動きや大きな動きのシーケンスに適用すると問題に直面し、パフォーマンスが低下する。
そこで我々は,時間層適応品質スケーリング(TAQS)や時間層適応遅延スケーリング(TALS)などの手法を取り入れ,時間層適応最適化を導入する。
提案手法による最終モデルは、ベースラインに対して-39.86%のBDレート向上を達成した。
また、単純な双方向拡張よりも最大-49.13%のBDレートゲインを持つ大きなあるいは複雑な動きを持つシーケンスの課題も解決する。
この改善は、下位の時間層により多くのビットを割り当てることによるものであり、これにより、より小さなビットで全体の再構築品質が向上する。
提案手法は特定のNVCモデルアーキテクチャにはほとんど依存しないため,一方向NVCモデルを階層的Bフレーム符号化に拡張するための汎用ツールとして機能する。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Bi-Directional Deep Contextual Video Compression [17.195099321371526]
本稿では,Bフレームに適した双方向深層映像圧縮方式をDCVC-Bと呼ぶ。
まず、効果的な動き差分符号化のための双方向の動き差分文脈伝搬法を提案する。
次に、双方向文脈圧縮モデルと対応する双方向時間エントロピーモデルを提案する。
第3に,階層的品質構造に基づくトレーニング戦略を提案し,画像の大規模なグループ間で効果的なビット割り当てを実現する。
論文 参考訳(メタデータ) (2024-08-16T08:45:25Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Scene Matters: Model-based Deep Video Compression [13.329074811293292]
本稿では,シーンを映像シーケンスの基本単位とみなすモデルベースビデオ圧縮(MVC)フレームワークを提案する。
提案したMVCは,1シーンでビデオシーケンス全体の新しい強度変化を直接モデル化し,冗長性を低減せず,非冗長表現を求める。
提案手法は,最新のビデオ標準H.266に比べて最大20%の削減を実現し,既存のビデオ符号化方式よりもデコーディングの効率がよい。
論文 参考訳(メタデータ) (2023-03-08T13:15:19Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。