論文の概要: Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence
- arxiv url: http://arxiv.org/abs/2602.09868v1
- Date: Tue, 10 Feb 2026 15:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.628841
- Title: Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence
- Title(参考訳): Free-GVC: テンポラルコヒーレンスによる訓練不要極端生成ビデオ圧縮を目指して
- Authors: Xiaoyue Ling, Chuqin Zhou, Chunyi Li, Yunuo Chen, Yuan Tian, Guo Lu, Wenjun Zhang,
- Abstract要約: Free-GVCは、トレーニング不要な生成ビデオ圧縮フレームワークである。
本手法は,ビデオセグメントをコンパクトなラテント空間に符号化し,グループ・オブ・ピクチャーズレベルで動作させる。
実験の結果、Free-GVCは最新のニューラルDCVC-RTよりも平均93.29%のBD-Rate還元を実現していることがわかった。
- 参考スコア(独自算出の注目度): 30.812937732503457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on recent advances in video generation, generative video compression has emerged as a new paradigm for achieving visually pleasing reconstructions. However, existing methods exhibit limited exploitation of temporal correlations, causing noticeable flicker and degraded temporal coherence at ultra-low bitrates. In this paper, we propose Free-GVC, a training-free generative video compression framework that reformulates video coding as latent trajectory compression guided by a video diffusion prior. Our method operates at the group-of-pictures (GOP) level, encoding video segments into a compact latent space and progressively compressing them along the diffusion trajectory. To ensure perceptually consistent reconstruction across GOPs, we introduce an Adaptive Quality Control module that dynamically constructs an online rate-perception surrogate model to predict the optimal diffusion step for each GOP. In addition, an Inter-GOP Alignment module establishes frame overlap and performs latent fusion between adjacent groups, thereby mitigating flicker and enhancing temporal coherence. Experiments show that Free-GVC achieves an average of 93.29% BD-Rate reduction in DISTS over the latest neural codec DCVC-RT, and a user study further confirms its superior perceptual quality and temporal coherence at ultra-low bitrates.
- Abstract(参考訳): 近年の映像生成の進歩を踏まえ, 映像圧縮は視覚的に満足な再現を実現するための新たなパラダイムとして出現している。
しかし、既存の手法では時間的相関が限られており、超低ビットレートにおける顕著なフリックと劣化した時間的コヒーレンスを引き起こしている。
本稿では,ビデオ拡散前の遅延軌跡圧縮としてビデオ符号化を再構成する,トレーニング不要な生成ビデオ圧縮フレームワークであるFree-GVCを提案する。
提案手法はグループ・オブ・ピクチャ(GOP)レベルで動作し,ビデオセグメントをコンパクトな潜在空間に符号化し,拡散軌道に沿って段階的に圧縮する。
GOP間の知覚的一貫した再構成を保証するために,オンラインのレート知覚サロゲートモデルを動的に構築し,各GOPに対して最適な拡散ステップを予測する適応品質制御モジュールを導入する。
さらに、Inter-GOPアライメントモジュールはフレームオーバーラップを確立し、隣接するグループ間で潜時融合を行い、フリックを緩和し、時間的コヒーレンスを高める。
実験により、Free-GVCは最新の神経コーデックDCVC-RTよりも平均93.29%のBD-Rate低下を達成し、ユーザーによる研究により、超低ビットレートでの知覚品質と時間的コヒーレンスがさらに優れていることが確認された。
関連論文リスト
- Generative Neural Video Compression via Video Diffusion Prior [33.164111717707414]
高度なビデオ生成基盤モデルに基づくDiTベースの生成ニューラルビデオ圧縮フレームワーク
高度なビデオ生成基盤モデルに基づく第1のDiTベース生成ニューラルビデオ圧縮フレームワーク
論文 参考訳(メタデータ) (2025-12-04T17:27:32Z) - Generative Latent Video Compression [26.99743586846841]
本稿では,知覚的ビデオ圧縮の有効なフレームワークであるジェネレーティブ・ラテント・ビデオ圧縮(GLVC)を提案する。
GLVCは、ビデオフレームを知覚的に整列された潜在空間に投影するために、事前訓練された連続トークンを使用する。
GLVC は DISTS と LPIPS の指標で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T03:28:49Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。