論文の概要: BiECVC: Gated Diversification of Bidirectional Contexts for Learned Video Compression
- arxiv url: http://arxiv.org/abs/2505.09193v2
- Date: Thu, 15 May 2025 01:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 12:00:18.781358
- Title: BiECVC: Gated Diversification of Bidirectional Contexts for Learned Video Compression
- Title(参考訳): BiECVC:学習ビデオ圧縮のための双方向コンテキストの多角化
- Authors: Wei Jiang, Junru Li, Kai Zhang, Li Zhang,
- Abstract要約: 本稿では,双方向ビデオ圧縮フレームワークのBiECVCを紹介する。
局所的および非局所的コンテキストモデリングと適応的コンテキストゲーティングが組み込まれている。
最先端のパフォーマンスを実現し、Random Access (RA) 構成の VTM 13.2 と比較してビットレートを 13.4% と 15.7% 削減した。
- 参考スコア(独自算出の注目度): 12.60355288519781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent forward prediction-based learned video compression (LVC) methods have achieved impressive results, even surpassing VVC reference software VTM under the Low Delay B (LDB) configuration. In contrast, learned bidirectional video compression (BVC) remains underexplored and still lags behind its forward-only counterparts. This performance gap is mainly due to the limited ability to extract diverse and accurate contexts: most existing BVCs primarily exploit temporal motion while neglecting non-local correlations across frames. Moreover, they lack the adaptability to dynamically suppress harmful contexts arising from fast motion or occlusion. To tackle these challenges, we propose BiECVC, a BVC framework that incorporates diversified local and non-local context modeling along with adaptive context gating. For local context enhancement, BiECVC reuses high-quality features from lower layers and aligns them using decoded motion vectors without introducing extra motion overhead. To model non-local dependencies efficiently, we adopt a linear attention mechanism that balances performance and complexity. To further mitigate the impact of inaccurate context prediction, we introduce Bidirectional Context Gating, inspired by data-dependent decay in recent autoregressive language models, to dynamically filter contextual information based on conditional coding results. Extensive experiments demonstrate that BiECVC achieves state-of-the-art performance, reducing the bit-rate by 13.4% and 15.7% compared to VTM 13.2 under the Random Access (RA) configuration with intra periods of 32 and 64, respectively. To our knowledge, BiECVC is the first learned video codec to surpass VTM 13.2 RA across all standard test datasets. Code will be available at https://github.com/JiangWeibeta/ECVC.
- Abstract(参考訳): 最近の前方予測に基づく学習ビデオ圧縮(LVC)法は,低遅延B(LDB)構成下でVVC参照ソフトウェアVTMを超越した結果を得た。
対照的に、学習された双方向ビデオ圧縮(BVC)は、まだ探索が過小評価されており、前方のみの圧縮に遅れを取っている。
既存のBVCの多くは、フレーム間の非局所的相関を無視しながら、時間的動きを主に利用しています。
さらに、速い動きや閉塞による有害な文脈を動的に抑制する適応性も欠如している。
このような課題に対処するため,BECVC は局所的および非局所的コンテキストモデリングと適応的コンテキストゲーティングを組み込んだ BVC フレームワークである。
ローカルコンテキストの強化のために、BiECVCは下位層から高品質な機能を再利用し、余分な動作オーバーヘッドを伴わずにデコードされたモーションベクトルを使ってそれらを整列する。
非局所的な依存関係を効率的にモデル化するために,性能と複雑性のバランスをとる線形アテンション機構を採用する。
近年の自己回帰言語モデルにおけるデータ依存の減衰にインスパイアされた双方向コンテキストゲーティングを導入し、条件付き符号化結果に基づいて文脈情報を動的にフィルタリングする。
大規模な実験により、BiECVCは最先端のパフォーマンスを達成し、ビットレートを32と64のランダムアクセス(RA)構成でそれぞれVTM 13.2と比較して13.4%と15.7%削減した。
我々の知る限り、BiECVCはVTM 13.2 RAを超える最初の学習ビデオコーデックである。
コードはhttps://github.com/JiangWeibeta/ECVCで入手できる。
関連論文リスト
- Augmented Deep Contexts for Spatially Embedded Video Coding [8.213635577747638]
ほとんどのニューラルビデオコーデック(NVC)は、時間のみのコンテキストを生成するために時間参照のみを使用する。
空間参照のために低解像度映像を圧縮した空間埋め込みビデオコーデック(SEVC)を提案する。
我々のSEVCは、大きな動きや出現する物体を扱う際の制限を効果的に軽減し、また以前の最先端のNVCよりも11.9%も削減します。
論文 参考訳(メタデータ) (2025-05-08T14:57:52Z) - Bi-Directional Deep Contextual Video Compression [17.195099321371526]
本稿では,Bフレームに適した双方向深層映像圧縮方式をDCVC-Bと呼ぶ。
まず、効果的な動き差分符号化のための双方向の動き差分文脈伝搬法を提案する。
次に、双方向文脈圧縮モデルと対応する双方向時間エントロピーモデルを提案する。
第3に,階層的品質構造に基づくトレーニング戦略を提案し,画像の大規模なグループ間で効果的なビット割り当てを実現する。
論文 参考訳(メタデータ) (2024-08-16T08:45:25Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。