論文の概要: Ultra-Fast Neural Video Compression
- arxiv url: http://arxiv.org/abs/2606.04410v1
- Date: Wed, 03 Jun 2026 03:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.518218
- Title: Ultra-Fast Neural Video Compression
- Title(参考訳): 超高速ニューラルビデオ圧縮
- Authors: Jiahao Li, Wenxuan Xie, Zhaoyang Jia, Bin Li, Zongyu Guo, Xiaoyi Zhang, Yan Lu,
- Abstract要約: 本稿では,レート・歪み・複雑さのトレードオフを大幅に改善するために,チャンクベースのコーディングフレームワークを提案する。
フレームを逐次処理する代わりに、複数のフレームの断片を1つのコンパクトな潜在表現に符号化し、同時にデコードする。
これらのイノベーションに基づいて、我々は、新しいSOTAのパフォーマンスを規定する新しいNVCであるDCVC-UFを紹介します。
- 参考スコア(独自算出の注目度): 29.065189275652944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural video codecs (NVCs) have demonstrated superior compression ratio, their prohibitive computational complexity remains a critical barrier to real-world deployment. This paper introduces a chunk-based coding framework designed to significantly improve the rate-distortion-complexity trade-off. Instead of processing frames sequentially, our approach encodes a chunk of multiple frames into a single compact latent representation and decodes them simultaneously. This is enabled by cross-frame interaction modules for joint spatial-temporal modeling and frame-specific decoders for parallel reconstruction. This paradigm not only dramatically enhances coding throughput but also facilitates more effective modeling of long-term temporal correlations. To further boost speed, we propose a streamlined entropy coding mechanism that consolidates bit-stream interactions into a single step, substantially reducing decoding overhead. Building on these innovations, we present DCVC-UF (Ultra-Fast), a new NVC that sets a new SOTA in performance. Our experiments show that DCVC-UF can achieve ultra-fast encoding and decoding speeds, significantly outperforming previous leading codecs. DCVC-UF serves as a notable landmark in the journey of NVC evolution. The code is at https://github.com/microsoft/DCVC.
- Abstract(参考訳): ニューラルビデオコーデック(NVC)はより優れた圧縮比を示してきたが、その禁止された計算複雑性は、現実世界のデプロイメントにとって重要な障壁である。
本稿では,レート・歪み・複雑さのトレードオフを大幅に改善するために,チャンクベースのコーディングフレームワークを提案する。
フレームを逐次処理する代わりに、複数のフレームの断片を1つのコンパクトな潜在表現に符号化し、同時にデコードする。
これは、共同空間時間モデリングのためのクロスフレーム相互作用モジュールと、並列再構築のためのフレーム固有デコーダによって実現されている。
このパラダイムは、コーディングスループットを劇的に向上するだけでなく、長期的な時間的相関のより効率的なモデリングを促進する。
さらに高速化するために,ビットストリームインタラクションを単一ステップに統合し,デコードオーバーヘッドを大幅に低減するエントロピー符号化機構を提案する。
これらのイノベーションに基づいて、我々は、新しいSOTAのパフォーマンスを設定できる新しいNVCであるDCVC-UF(Ultra-Fast)を紹介します。
実験の結果,DCVC-UFは超高速な符号化および復号化が可能であり,従来のコーデックよりも優れていた。
DCVC-UFは、NVC進化の旅で注目すべきランドマークとなっている。
コードはhttps://github.com/microsoft/DCVCにある。
関連論文リスト
- DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression [38.495966630021556]
我々は、リアルタイム拡散に基づくニューラルビデオ圧縮(NVC)を実現するための最初のフレームワークであるDiffVC-RTを提案する。
DiffVC-RTは、NVIDIA H800 GPU上の720pビデオに対して、リアルタイムエンコーディングとデコード速度206/30 fpsのHEVCデータセット上で、LPIPSよりもVTM-17.0よりも80.1%のパーセプティカルセーブを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-28T12:59:25Z) - Real-Time Neural Video Compression with Unified Intra and Inter Coding [8.998142257336674]
各フレームを1つのモデルで処理する、イントラ・インターコーディングとイントラ・コーディングを統一したNVCフレームワークを提案する。
本稿では,フレーム間冗長性を利用した2フレーム同時圧縮設計を提案する。
提案方式は,DCVC-RTを平均12.1%のBDレートで性能良くし,フレームあたりの安定性と品質を向上し,リアルタイム符号化/復号性能を維持している。
論文 参考訳(メタデータ) (2025-10-16T08:31:44Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。
実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文 参考訳(メタデータ) (2025-02-28T06:32:23Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。