論文の概要: DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression
- arxiv url: http://arxiv.org/abs/2601.20564v1
- Date: Wed, 28 Jan 2026 12:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.935659
- Title: DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression
- Title(参考訳): DiffVC-RT: 実時間拡散に基づく知覚型ニューラルビデオ圧縮の実現に向けて
- Authors: Wenzhuo Ma, Zhenzhong Chen,
- Abstract要約: 我々は、リアルタイム拡散に基づくニューラルビデオ圧縮(NVC)を実現するための最初のフレームワークであるDiffVC-RTを提案する。
DiffVC-RTは、NVIDIA H800 GPU上の720pビデオに対して、リアルタイムエンコーディングとデコード速度206/30 fpsのHEVCデータセット上で、LPIPSよりもVTM-17.0よりも80.1%のパーセプティカルセーブを実現していることを示す。
- 参考スコア(独自算出の注目度): 38.495966630021556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practical deployment of diffusion-based Neural Video Compression (NVC) faces critical challenges, including severe information loss, prohibitive inference latency, and poor temporal consistency. To bridge this gap, we propose DiffVC-RT, the first framework designed to achieve real-time diffusion-based perceptual NVC. First, we introduce an Efficient and Informative Model Architecture. Through strategic module replacements and pruning, this architecture significantly reduces computational complexity while mitigating structural information loss. Second, to address generative flickering artifacts, we propose Explicit and Implicit Consistency Modeling. We enhance temporal consistency by explicitly incorporating a zero-cost Online Temporal Shift Module within the U-Net, complemented by hybrid implicit consistency constraints. Finally, we present an Asynchronous and Parallel Decoding Pipeline incorporating Mixed Half Precision, which enables asynchronous latent decoding and parallel frame reconstruction via a Batch-dimension Temporal Shift design. Experiments show that DiffVC-RT achieves 80.1% bitrate savings in terms of LPIPS over VTM-17.0 on HEVC dataset with real-time encoding and decoding speeds of 206 / 30 fps for 720p videos on an NVIDIA H800 GPU, marking a significant milestone in diffusion-based video compression.
- Abstract(参考訳): 拡散に基づくニューラルビデオ圧縮(NVC)の実践的展開は、深刻な情報損失、禁忌推論レイテンシ、時間的一貫性の低下など、重大な課題に直面している。
このギャップを埋めるために,リアルタイム拡散に基づく知覚的NVCを実現するための最初のフレームワークであるDiffVC-RTを提案する。
まず、効率的でインフォーマティブなモデルアーキテクチャを紹介します。
戦略的モジュール置換とプルーニングにより、このアーキテクチャは構造情報の損失を軽減しつつ、計算の複雑さを著しく低減する。
第2に、生成的フリッカリングアーティファクトに対処するために、明示的および暗黙的一貫性モデリングを提案する。
我々は、U-Netにゼロコストのオンライン時間シフトモジュールを明示的に組み込むことにより、時間的一貫性を高める。
最後に,Mixed Half Precisionを組み込んだ非同期並列デコーディングパイプラインを提案する。
実験の結果、DiffVC-RTはHEVCデータセット上のVTM-17.0よりもLPIPSで80.1%のビットレート節約を実現しており、NVIDIA H800 GPU上での720pビデオのリアルタイム符号化とデコード速度は206/30fpsである。
関連論文リスト
- Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - Real-Time Neural Video Compression with Unified Intra and Inter Coding [8.998142257336674]
各フレームを1つのモデルで処理する、イントラ・インターコーディングとイントラ・コーディングを統一したNVCフレームワークを提案する。
本稿では,フレーム間冗長性を利用した2フレーム同時圧縮設計を提案する。
提案方式は,DCVC-RTを平均12.1%のBDレートで性能良くし,フレームあたりの安定性と品質を向上し,リアルタイム符号化/復号性能を維持している。
論文 参考訳(メタデータ) (2025-10-16T08:31:44Z) - DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework [45.134271969594614]
まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
論文 参考訳(メタデータ) (2025-08-11T06:59:23Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis [40.249030338644225]
映像合成 (Vid2Vid) は, セマンティックマップのシーケンスから写真リアルな映像を生成することで, 顕著な成果を上げている。
Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを節約する。
論文 参考訳(メタデータ) (2022-07-11T17:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。