論文の概要: Generative Neural Video Compression via Video Diffusion Prior
- arxiv url: http://arxiv.org/abs/2512.05016v1
- Date: Thu, 04 Dec 2025 17:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.297577
- Title: Generative Neural Video Compression via Video Diffusion Prior
- Title(参考訳): ビデオ拡散による生成型ニューラルビデオ圧縮
- Authors: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma,
- Abstract要約: 高度なビデオ生成基盤モデルに基づくDiTベースの生成ニューラルビデオ圧縮フレームワーク
高度なビデオ生成基盤モデルに基づく第1のDiTベース生成ニューラルビデオ圧縮フレームワーク
- 参考スコア(独自算出の注目度): 33.164111717707414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.
- Abstract(参考訳): GNVC-VDは,プログレッシブビデオ生成基盤モデル上に構築された,最初のDITベースの生成ニューラルビデオ圧縮フレームワークであり,時空間の潜時圧縮とシーケンスレベルの生成精細化が単一コーデック内で統一される。
既存の知覚コーデックは、主に高周波の詳細を復元するために事前訓練された画像生成の先行に頼っているが、フレームワイドの性質は時間的モデリングに欠けており、必然的に知覚のひねりにつながる。
これを解決するため、GNVC-VDは、ビデオ拡散トランスフォーマを利用して、シーケンスレベルのデノジングを通じてフレーム内およびフレーム間ラテントを協調的に拡張し、一貫した時空間的詳細を確保する、一貫したフローマッチングラテント改善モジュールを導入している。
GNVC-VDは、ビデオ生成のように純粋なガウスノイズからノイズを除去する代わりに、復号された時空間潜時器からの洗練を初期化し、圧縮誘起劣化に先立って拡散に適応する補正項を学習する。
コンディショニングアダプタは、圧縮認識キューを中間DiT層にさらに注入し、極端ビットレート制約下で時間的コヒーレンスを維持しつつ、効果的なアーティファクト除去を可能にする。
大規模な実験により、GNVC-VDは知覚的品質において従来のコーデックと学習されたコーデックを超越し、0.01bpp以下でも以前のジェネレーションアプローチで持続するフリックングアーティファクトを大幅に削減し、次世代の知覚的ビデオ圧縮のために、ビデオネイティブなジェネレーションプリエントをニューラルコーデックに統合するという約束を強調した。
関連論文リスト
- Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models [11.913945404405865]
ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成し、それに続く繰り返しフレームを生成する。
本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
論文 参考訳(メタデータ) (2025-11-15T08:29:14Z) - Generative Latent Video Compression [26.99743586846841]
本稿では,知覚的ビデオ圧縮の有効なフレームワークであるジェネレーティブ・ラテント・ビデオ圧縮(GLVC)を提案する。
GLVCは、ビデオフレームを知覚的に整列された潜在空間に投影するために、事前訓練された連続トークンを使用する。
GLVC は DISTS と LPIPS の指標で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T03:28:49Z) - Nuclear Diffusion Models for Low-Rank Background Suppression in Videos [20.045809197071204]
核拡散は、実際の医療画像問題、すなわち心臓超音波脱ハージングに基づいて評価される。
その結果、高忠実度ビデオ復元のためのモデルベース時間モデルと深部生成前のモデルを組み合わせる可能性を強調した。
論文 参考訳(メタデータ) (2025-09-25T08:20:22Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Gated Recurrent Unit for Video Denoising [5.515903319513226]
本稿では,映像復号化のためのゲートリカレント・ユニット(GRU)機構に基づく新しい映像復号化モデルを提案する。
実験の結果, GRU-VDネットワークは, 客観的かつ主観的に, 高い品質が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-17T14:34:54Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。