論文の概要: ProGVC: Progressive-based Generative Video Compression via Auto-Regressive Context Modeling
- arxiv url: http://arxiv.org/abs/2603.17546v1
- Date: Wed, 18 Mar 2026 09:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.62215
- Title: ProGVC: Progressive-based Generative Video Compression via Auto-Regressive Context Modeling
- Title(参考訳): ProGVC: 自動回帰コンテキストモデリングによるプログレッシブベース生成ビデオ圧縮
- Authors: Daowen Li, Ruixiao Dong, Ying Chen, Kai Li, Ding Ding, Li Li,
- Abstract要約: 本稿では,プログレッシブ・トランスミッション,効率的なエントロピー・コーディング,ディテール・シンセサイザーを統一したプログレッシブ・ベース・ジェネレーティブ・ビデオ圧縮フレームワークを提案する。
ProGVCは、ビデオを階層的なマルチスケールの残留トークンマップにエンコードし、粗いサブセットをプログレッシブな方法で送信することで、フレキシブルなレート適応を可能にする。
- 参考スコア(独自算出の注目度): 10.843021248963305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptual video compression leverages generative priors to reconstruct realistic textures and motions at low bitrates. However, existing perceptual codecs often lack native support for variable bitrate and progressive delivery, and their generative modules are weakly coupled with entropy coding, limiting bitrate reduction. Inspired by the next-scale prediction in the Visual Auto-Regressive (VAR) models, we propose ProGVC, a Progressive-based Generative Video Compression framework that unifies progressive transmission, efficient entropy coding, and detail synthesis within a single codec. ProGVC encodes videos into hierarchical multi-scale residual token maps, enabling flexible rate adaptation by transmitting a coarse-to-fine subset of scales in a progressive manner. A Transformer-based multi-scale autoregressive context model estimates token probabilities, utilized both for efficient entropy coding of the transmitted tokens and for predicting truncated fine-scale tokens at the decoder to restore perceptual details. Extensive experiments demonstrate that as a new coding paradigm, ProGVC delivers promising perceptual compression performance at low bitrates while offering practical scalability at the same time.
- Abstract(参考訳): 知覚ビデオ圧縮は、生成前の前兆を利用して、低ビットレートでの現実的なテクスチャや動きを再構築する。
しかし、既存の知覚コーデックは、可変ビットレートとプログレッシブデリバリのネイティブサポートを欠いていることが多く、生成モジュールはエントロピー符号化と弱い結合であり、ビットレートの低減を制限している。
本稿では,Visual Auto-Regressive (VAR)モデルにおける次世代の予測に着想を得て,プログレッシブ・トランスミッション,効率的なエントロピー符号化,単一コーデック内の詳細合成を統一するプログレッシブ・ベース・ジェネレーティブ・ビデオ圧縮フレームワークProGVCを提案する。
ProGVCは、ビデオを階層的なマルチスケールの残留トークンマップにエンコードし、粗いサブセットをプログレッシブな方法で送信することで、フレキシブルなレート適応を可能にする。
Transformerベースのマルチスケール自己回帰的文脈モデル推定トークン確率は、送信されたトークンの効率的なエントロピー符号化と、デコーダで切り出された微細なトークンの予測の両方に利用され、知覚的詳細を復元する。
大規模な実験では、新しいコーディングパラダイムとして、ProGVCは低ビットレートで有望な知覚圧縮性能を提供すると同時に、実用的なスケーラビリティを提供する。
関連論文リスト
- ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。
RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。
これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文 参考訳(メタデータ) (2026-03-03T11:47:05Z) - SIEDD: Shared-Implicit Encoder with Discrete Decoders [36.705337163276255]
Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
論文 参考訳(メタデータ) (2025-06-29T19:39:43Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens [28.03183316628635]
本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
論文 参考訳(メタデータ) (2024-10-11T03:24:21Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。