論文の概要: Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow
- arxiv url: http://arxiv.org/abs/2603.26571v2
- Date: Thu, 02 Apr 2026 07:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.072345
- Title: Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow
- Title(参考訳): ゼロショットビデオ符号化は確率的整流による圧縮
- Authors: Ziyue Zeng, Xun Su, Haoyuan Liu, Bingyu Lu, Yui Tatsumi, Hiroshi Watanabe,
- Abstract要約: emphGenerative Video Codebook Codec (GVCC)は、事前訓練されたビデオ生成モデルをそれ自体に変換するゼロショットフレームワークである。
この統合されたバックボーン上に構築された3つの条件付け戦略 – emphImage-to-Video (I2V), emphText-to-Video (T2V), emphFirst-Last-Frame-to-Video (FLF2V) – をインスタンス化する。
- 参考スコア(独自算出の注目度): 1.8898767128464697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative modeling have enabled perceptual video compression at ultra-low bitrates, yet existing methods predominantly treat the generative model as a refinement or reconstruction module attached to a separately designed codec backbone. We propose \emph{Generative Video Codebook Codec} (GVCC), a zero-shot framework that turns a pretrained video generative model into the codec itself: the transmitted bitstream directly specifies the generative decoding trajectory, with no retraining required. To enable this, we convert the deterministic rectified-flow ODE of modern video foundation models into an equivalent SDE at inference time, unlocking per-step stochastic injection points for codebook-driven compression. Building on this unified backbone, we instantiate three complementary conditioning strategies -- \emph{Image-to-Video} (I2V) with autoregressive GOP chaining, tail latent residual correction, and adaptive atom allocation, \emph{Text-to-Video} (T2V) operating at near-zero side information as a pure generative prior, and \emph{First-Last-Frame-to-Video} (FLF2V) with boundary-sharing GOP chaining for dual-anchor temporal control. Together, these variants span a principled trade-off space between spatial fidelity, temporal coherence, and compression efficiency. Experiments on standard benchmarks show that GVCC achieves high-quality reconstruction below 0.002\,bpp while supporting flexible bitrate control through a single hyperparameter.
- Abstract(参考訳): 生成モデリングの最近の進歩により、超低ビットレートでの知覚ビデオ圧縮が可能になったが、既存の方法では、生成モデルを別々に設計されたコーデックバックボーンに取り付けられた洗練または再構築モジュールとして主に扱うことができる。
本稿では,事前学習したビデオ生成モデルをコーデック自体に変換するゼロショットフレームワークである \emph{Generative Video Codebook Codec} (GVCC) を提案する。
これを実現するために、現代のビデオ基盤モデルの決定論的整流ODEを推論時に等価なSDEに変換し、コードブック駆動圧縮のためのステップごとの確率的インジェクションポイントをアンロックする。
この統合バックボーンを基盤として, 自己回帰GOP連鎖, テール遅延残差補正, アダプティブ原子割り当て, ほぼゼロ側情報を純生成前として操作する \emph{Text-to-Video} (T2V) と, 境界共有GOP連鎖を両アンカー時間制御に用いた \emph{First-Last-Frame-to-Video} (FLF2V) の3つの相補的条件付け戦略を作成した。
これらの変種は、空間的忠実性、時間的コヒーレンス、圧縮効率の間の原則化されたトレードオフ空間にまたがる。
標準ベンチマークの実験では、GVCCは0.002\,bpp以下の高品質な再構成を実現し、1つのハイパーパラメータによる柔軟なビットレート制御をサポートする。
関連論文リスト
- Next-Frame Decoding for Ultra-Low-Bitrate Image Compression with Video Diffusion Priors [30.653078447499894]
超低ビットレート画像圧縮(ULB-IC)のための新しいパラダイムを提案する。
我々はデコード中の明示的な中間状態(コンパクトアンカーフレーム)を定義する。
次に、生成復号化を、このアンカーから最終的な再構成画像への仮想時間遷移として再解釈する。
論文 参考訳(メタデータ) (2026-03-16T11:24:26Z) - Geometric Transformation-Embedded Mamba for Learned Video Compression [5.89272315125701]
直接変換戦略,すなわち非線形変換,量子化,エントロピー符号化に基づくビデオ圧縮フレームワークを提案する。
提案手法は,低ビットレート制約下での知覚的品質と時間的一貫性の観点から,最先端のビデオ圧縮手法より優れる。
論文 参考訳(メタデータ) (2026-03-09T03:14:07Z) - Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence [30.812937732503457]
Free-GVCは、トレーニング不要な生成ビデオ圧縮フレームワークである。
本手法は,ビデオセグメントをコンパクトなラテント空間に符号化し,グループ・オブ・ピクチャーズレベルで動作させる。
実験の結果、Free-GVCは最新のニューラルDCVC-RTよりも平均93.29%のBD-Rate還元を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-10T15:12:51Z) - GIViC: Generative Implicit Video Compression [11.908506692749743]
Implicit Video Compression (GIViC) は、INRが長期依存の活用において大きな言語拡散モデルと共通する特徴に着想を得ている。
Gene Gated Linear Attention-based transformer (HGLA) もこのフレームワークに統合され、グローバルな依存性モデリングを二要素化している。
私たちが知っている限りでは、GIViCはVTMのコーディング構成を上回った最初のINRベースのビデオです。
論文 参考訳(メタデータ) (2025-03-25T12:39:45Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。