論文の概要: Neural Video Compression with Diverse Contexts
- arxiv url: http://arxiv.org/abs/2302.14402v1
- Date: Tue, 28 Feb 2023 08:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:29:34.406182
- Title: Neural Video Compression with Diverse Contexts
- Title(参考訳): 異なる文脈でのニューラルビデオ圧縮
- Authors: Jiahao Li, Bin Li, Yan Lu
- Abstract要約: 本稿では,時間次元と空間次元の両方において,文脈の多様性を高めることを提案する。
実験の結果,従来のSOTA NVCよりも23.5%の節約が得られた。
- 参考スコア(独自算出の注目度): 25.96187914295921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For any video codecs, the coding efficiency highly relies on whether the
current signal to be encoded can find the relevant contexts from the previous
reconstructed signals. Traditional codec has verified more contexts bring
substantial coding gain, but in a time-consuming manner. However, for the
emerging neural video codec (NVC), its contexts are still limited, leading to
low compression ratio. To boost NVC, this paper proposes increasing the context
diversity in both temporal and spatial dimensions. First, we guide the model to
learn hierarchical quality patterns across frames, which enriches long-term and
yet high-quality temporal contexts. Furthermore, to tap the potential of
optical flow-based coding framework, we introduce a group-based offset
diversity where the cross-group interaction is proposed for better context
mining. In addition, this paper also adopts a quadtree-based partition to
increase spatial context diversity when encoding the latent representation in
parallel. Experiments show that our codec obtains 23.5% bitrate saving over
previous SOTA NVC. Better yet, our codec has surpassed the under-developing
next generation traditional codec/ECM in both RGB and YUV420 colorspaces, in
terms of PSNR. The codes are at https://github.com/microsoft/DCVC.
- Abstract(参考訳): 任意のビデオコーデックにおいて、符号化効率は、エンコードされる現在の信号が、以前の再構成された信号から関連するコンテキストを見つけることができるかどうかに大きく依存する。
従来のコーデックは、多くのコンテキストを検証し、かなりのコードゲインをもたらすが、時間を要する。
しかし、新興のニューラルビデオコーデック(NVC)では、そのコンテキストはまだ限られており、圧縮比は低い。
本稿では,nvcを増大させるために,時間次元と空間次元の両方においてコンテキストの多様性を高めることを提案する。
まず、フレーム間の階層的な品質パターンを学習し、長期的かつ高品質な時間的コンテキストを充実させる。
さらに,光フローベースの符号化フレームワークの可能性を活かすため,グループ間の相互作用がコンテキストマイニングを改善するために提案されるグループベースのオフセット多様性を導入する。
さらに,本論文では,潜在表現を並列に符号化する際の空間空間の多様性を高めるために,クワッドツリーに基づく分割も導入している。
実験の結果, コーデックは従来のSOTA NVCよりも23.5%のビットレートを節約できることがわかった。
さらに、我々のコーデックは、PSNRの観点から、RGBとYUV420の色空間において、未開発の次世代コーデック/ECMを上回っています。
コードはhttps://github.com/microsoft/DCVCにある。
関連論文リスト
- PNVC: Towards Practical INR-based Video Compression [14.088444622391501]
自動エンコーダと過度に適合したソリューションを革新的に組み合わせた新しいINRベースのコーディングフレームワークであるPNVCを提案する。
PNVCはHEVC HM 18.0(LD)に対して35%以上のBDレートの節約を実現している。
論文 参考訳(メタデータ) (2024-09-02T05:31:11Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Adaptation and Attention for Neural Video Coding [23.116987835862314]
本稿では,いくつかの建築ノベルティとトレーニングノベルティを紹介するエンド・ツー・エンドの学習ビデオを提案する。
1つのアーキテクチャ上の特徴として,入力ビデオの解像度に基づいて動き推定プロセスを適用するために,フレーム間モデルをトレーニングすることを提案する。
第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。
論文 参考訳(メタデータ) (2021-12-16T10:25:49Z) - Variable Rate Video Compression using a Hybrid Recurrent Convolutional
Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。
可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文 参考訳(メタデータ) (2020-04-08T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。