論文の概要: Neural Video Compression with Context Modulation
- arxiv url: http://arxiv.org/abs/2505.14541v1
- Date: Tue, 20 May 2025 15:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.554103
- Title: Neural Video Compression with Context Modulation
- Title(参考訳): 文脈変調によるニューラルビデオ圧縮
- Authors: Chuanbo Tang, Zhuoyuan Li, Yifan Bian, Li Li, Dong Liu,
- Abstract要約: 本稿では、時間的文脈を基準フレームで2段階に調整することで、制限に対処する。
従来の H.266/VVC よりも平均 22.7% の削減を実現し,従来の NVC DCVC-FM よりも平均 10.1% の削減を実現した。
- 参考スコア(独自算出の注目度): 9.875413481663742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient video coding is highly dependent on exploiting the temporal redundancy, which is usually achieved by extracting and leveraging the temporal context in the emerging conditional coding-based neural video codec (NVC). Although the latest NVC has achieved remarkable progress in improving the compression performance, the inherent temporal context propagation mechanism lacks the ability to sufficiently leverage the reference information, limiting further improvement. In this paper, we address the limitation by modulating the temporal context with the reference frame in two steps. Specifically, we first propose the flow orientation to mine the inter-correlation between the reference frame and prediction frame for generating the additional oriented temporal context. Moreover, we introduce the context compensation to leverage the oriented context to modulate the propagated temporal context generated from the propagated reference feature. Through the synergy mechanism and decoupling loss supervision, the irrelevant propagated information can be effectively eliminated to ensure better context modeling. Experimental results demonstrate that our codec achieves on average 22.7% bitrate reduction over the advanced traditional video codec H.266/VVC, and offers an average 10.1% bitrate saving over the previous state-of-the-art NVC DCVC-FM. The code is available at https://github.com/Austin4USTC/DCMVC.
- Abstract(参考訳): 効率的なビデオ符号化は、時間的冗長性を活用することに大きく依存しており、通常は、出現する条件付きコーディングベースのニューラルビデオコーデック(NVC)の時間的コンテキストを抽出し、活用することで達成される。
最新のNVCは圧縮性能の改善において顕著な進歩を遂げているが、固有の時間的文脈伝搬機構は参照情報を十分に活用する能力に欠け、さらなる改善が制限されている。
本稿では、時間的文脈を基準フレームで2段階に調整することで、制限に対処する。
具体的には、まず、参照フレームと予測フレームとの相関関係を抽出し、追加の向き付けられた時間コンテキストを生成するフロー配向を提案する。
さらに,適応参照特徴から生成された伝搬時間コンテキストを変調するために,向き付けられたコンテキストを利用するコンテキスト補償を導入する。
シナジー機構とデカップリング損失監視により、無関係な伝播情報を効果的に排除し、より優れたコンテキストモデリングを実現する。
実験の結果,従来のビデオコーデックH.266/VVCよりも平均22.7%のビットレート削減を実現し,従来のNVC DCVC-FMよりも平均10.1%のビットレート削減を実現した。
コードはhttps://github.com/Austin4USTC/DCMVCで入手できる。
関連論文リスト
- Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Neural Video Compression with Diverse Contexts [25.96187914295921]
本稿では,時間次元と空間次元の両方において,文脈の多様性を高めることを提案する。
実験の結果,従来のSOTA NVCよりも23.5%の節約が得られた。
論文 参考訳(メタデータ) (2023-02-28T08:35:50Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。