論文の概要: Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding
- arxiv url: http://arxiv.org/abs/2506.07709v1
- Date: Mon, 09 Jun 2025 12:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.952327
- Title: Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding
- Title(参考訳): ニューラルBフレームビデオ符号化のための微動圧縮と選択的時間融合
- Authors: Xihua Sheng, Peilin Chen, Meng Wang, Li Zhang, Shiqi Wang, Dapeng Oliver Wu,
- Abstract要約: ニューラルBフレーム符号化のための動き圧縮と時間融合の新たな拡張を提案する。
提案手法では,対話型デュアルブランチ動作自動エンコーダと,ブラッチごとの適応量子化ステップを組み込む。
第2に,二方向融合重みを予測し,二方向多スケール時間文脈の識別的利用を実現するための選択時間融合法を提案する。
- 参考スコア(独自算出の注目度): 27.315485948158006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable progress in neural P-frame video coding, neural B-frame coding has recently emerged as a critical research direction. However, most existing neural B-frame codecs directly adopt P-frame coding tools without adequately addressing the unique challenges of B-frame compression, leading to suboptimal performance. To bridge this gap, we propose novel enhancements for motion compression and temporal fusion for neural B-frame coding. First, we design a fine-grained motion compression method. This method incorporates an interactive dual-branch motion auto-encoder with per-branch adaptive quantization steps, which enables fine-grained compression of bi-directional motion vectors while accommodating their asymmetric bitrate allocation and reconstruction quality requirements. Furthermore, this method involves an interactive motion entropy model that exploits correlations between bi-directional motion latent representations by interactively leveraging partitioned latent segments as directional priors. Second, we propose a selective temporal fusion method that predicts bi-directional fusion weights to achieve discriminative utilization of bi-directional multi-scale temporal contexts with varying qualities. Additionally, this method introduces a hyperprior-based implicit alignment mechanism for contextual entropy modeling. By treating the hyperprior as a surrogate for the contextual latent representation, this mechanism implicitly mitigates the misalignment in the fused bi-directional temporal priors. Extensive experiments demonstrate that our proposed codec outperforms state-of-the-art neural B-frame codecs and achieves comparable or even superior compression performance to the H.266/VVC reference software under random-access configurations.
- Abstract(参考訳): ニューラルPフレームビデオコーディングの顕著な進歩により、ニューラルBフレームコーディングは近年、重要な研究方向として現れている。
しかしながら、既存のほとんどのニューラルネットワークBフレームコーデックは、Bフレーム圧縮の独特な課題に適切に対処することなく、Pフレームのコーディングツールを直接採用している。
このギャップを埋めるために、ニューラルBフレーム符号化のための動き圧縮と時間融合の新たな拡張を提案する。
まず, 微細な動き圧縮法を設計する。
本手法は,非対称なビットレート割り当てと再構成品質要件を調整しながら,双方向の運動ベクトルをきめ細かな圧縮を可能にする,各ブランチ適応量子化ステップを備えた対話型デュアルブランチモーションオートエンコーダを組み込む。
さらに, この手法は, 双方向動作潜在表現間の相関を利用して, 分割された潜在セグメントを方向先行として相互に活用する対話型動きエントロピーモデルを含む。
第2に,両方向の融合重みを予測し,異なる性質を持つ双方向多スケール時間文脈の識別的利用を実現するための選択時間融合法を提案する。
さらに,この手法では文脈エントロピーモデリングのための暗黙アライメント機構を導入する。
ハイパープライアを文脈的潜在表現の代理として扱うことで、このメカニズムは、融合した双方向の時間的前兆における不一致を暗黙的に緩和する。
大規模な実験により,提案したコーデックは最先端のニューラルBフレームコーデックより優れており,ランダムアクセス構成下でのH.266/VVC参照ソフトウェアと同等あるいはそれ以上の圧縮性能が得られることが示された。
関連論文リスト
- Bi-Directional Deep Contextual Video Compression [17.195099321371526]
本稿では,Bフレームに適した双方向深層映像圧縮方式をDCVC-Bと呼ぶ。
まず、効果的な動き差分符号化のための双方向の動き差分文脈伝搬法を提案する。
次に、双方向文脈圧縮モデルと対応する双方向時間エントロピーモデルを提案する。
第3に,階層的品質構造に基づくトレーニング戦略を提案し,画像の大規模なグループ間で効果的なビット割り当てを実現する。
論文 参考訳(メタデータ) (2024-08-16T08:45:25Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。