論文の概要: Generative Video Compression with One-Dimensional Latent Representation
- arxiv url: http://arxiv.org/abs/2603.15302v1
- Date: Mon, 16 Mar 2026 14:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.410785
- Title: Generative Video Compression with One-Dimensional Latent Representation
- Title(参考訳): 1次元ラテント表現を用いた生成ビデオ圧縮
- Authors: Zihan Zheng, Zhaoyang Jia, Naifu Xue, Jiahao Li, Bin Li, Zongyu Guo, Xiaoyi Zhang, Zhenghao Chen, Houqiang Li, Yan Lu,
- Abstract要約: 1次元(1次元)遅延表現(GVC1D)による生成ビデオ圧縮について紹介する。
GVC1Dはビデオデータを、短期と長期の両方の文脈で条件付けられた極端にコンパクトな1D潜在トークンにエンコードする。
実験結果から,GVC1Dの圧縮効率は従来の圧縮法よりも優れていた。
- 参考スコア(独自算出の注目度): 59.29493435530304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative video codec (GVC) typically encode video into a 2D latent grid and employ high-capacity generative decoders for reconstruction. However, this paradigm still leaves two key challenges in fully exploiting spatial-temporal redundancy: Spatially, the 2D latent grid inevitably preserves intra-frame redundancy due to its rigid structure, where adjacent patches remain highly similar, thereby necessitating a higher bitrate. Temporally, the 2D latent grid is less effective for modeling long-term correlations in a compact and semantically coherent manner, as it hinders the aggregation of common contents across frames. To address these limitations, we introduce Generative Video Compression with One-Dimensional (1D) Latent Representation (GVC1D). GVC1D encodes the video data into extreme compact 1D latent tokens conditioned on both short- and long-term contexts. Without the rigid 2D spatial correspondence, these 1D latent tokens can adaptively attend to semantic regions and naturally facilitate token reduction, thereby reducing spatial redundancy. Furthermore, the proposed 1D memory provides semantically rich long-term context while maintaining low computational cost, thereby further reducing temporal redundancy. Experimental results indicate that GVC1D attains superior compression efficiency, where it achieves bitrate reductions of 60.4\% under LPIPS and 68.8\% under DISTS on the HEVC Class B dataset, surpassing the previous video compression methods.Project: https://gvc1d.github.io/
- Abstract(参考訳): 生成ビデオコーデック(GVC)の最近の進歩は、通常、ビデオが2次元の遅延格子に符号化され、再生のために高容量な生成デコーダが使用される。
しかし、このパラダイムは空間的時間的冗長性を完全に活用する上で2つの重要な課題を残している:空間的には、2D潜在格子はフレーム内冗長性を必然的に保存する。
時間的に2次元潜在格子は、フレーム間の共通内容の集約を妨げるため、コンパクトでセマンティックなコヒーレントな長期相関のモデル化にはあまり効果がない。
これらの制約に対処するために,1次元(1次元)遅延表現を用いた生成ビデオ圧縮(GVC1D)を提案する。
GVC1Dはビデオデータを、短期と長期の両方の文脈で条件付けられた極端にコンパクトな1D潜在トークンにエンコードする。
剛性2次元空間対応がなければ、これらの1D潜在トークンは意味領域に適応的に参加し、トークンの減少を自然に促進し、空間冗長性を低減できる。
さらに、提案した1Dメモリは、計算コストを低く抑えつつ、意味的に豊かな長期コンテキストを提供し、時間的冗長性をさらに低減する。
実験の結果、GVC1Dは圧縮効率が優れており、LPIPSで60.4\%、HEVCクラスBデータセットで68.8\%のビットレート削減を実現している。
関連論文リスト
- TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos [51.99176811574457]
Inlicit Neural Representations (INRs) は、最近ビデオ圧縮における印象的な性能を実証した。
しかし、エンコーディング効率を維持しながら高解像度ビデオへのスケーリングは依然として大きな課題である。
3つの重要なコントリビューションを通じて、これらの基本的な制限に対処します。
我々は,UVG,HEVC,MCL-JCVで480p,720p,1080pで実験を行った最初のハイパーネットワークアプローチである。
論文 参考訳(メタデータ) (2026-02-18T18:59:55Z) - Adaptive 1D Video Diffusion Autoencoder [44.70149252636057]
適応型1次元符号化と拡散型デコードのためのトランスフォーマベースのフレームワークである1次元拡散ビデオ自動符号化(One-DVA)を提案する。
1-DVAは3D-CNN VAEと同等の性能を同じ圧縮比で再現する。
さらに、生成過程によって生じる人工物を軽減するために、生成モデルのためのOne-DVA潜伏分布を規則化し、デコーダを微調整する。
論文 参考訳(メタデータ) (2026-02-04T05:11:12Z) - SemanticGen: Video Generation in Semantic Space [60.49729308406981]
最先端のビデオ生成モデルは、通常、VAE空間内のビデオ潜像の分布を学習し、VAEデコーダを使用してピクセルにマッピングする。
我々はセマンティックGenを紹介した。セマンティックGenはセマンティックな空間でビデオを生成する新しいソリューションだ。
提案手法は,長大なビデオ生成に拡張した場合にも有効であり,計算的にも効率的である。
論文 参考訳(メタデータ) (2025-12-23T18:59:56Z) - Generative Latent Coding for Ultra-Low Bitrate Image Compression [61.71793017252801]
本稿では,生成ベクトル量子化変分自動エンコーダ(VQ-VAE)の潜時空間で変換符号化を行う生成潜時符号化アーキテクチャを提案する。
生成潜伏空間は、より空間性が高く、より豊かな意味を持ち、人間の知覚との整合性が良く、高現実性および高忠実性圧縮を達成するのに有利である。
論文 参考訳(メタデータ) (2025-12-23T09:35:40Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - EfficientSCI: Densely Connected Network with Space-time Factorization
for Large-scale Video Snapshot Compressive Imaging [6.8372546605486555]
圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドのディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示す。
提案手法は,従来のSOTAアルゴリズムよりも性能が優れ,リアルタイム性能が向上した。
論文 参考訳(メタデータ) (2023-05-17T07:28:46Z) - Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis [40.249030338644225]
映像合成 (Vid2Vid) は, セマンティックマップのシーケンスから写真リアルな映像を生成することで, 顕著な成果を上げている。
Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを節約する。
論文 参考訳(メタデータ) (2022-07-11T17:57:57Z) - Dynamic Point Cloud Compression with Cross-Sectional Approach [10.850101961203748]
MPEGはV-PCCとして知られるビデオベースのPoint Cloud Compression標準を確定した。
提案手法は,新しい断面法を用いて,これらの制約に対処する。
標準ビデオシーケンスを用いた実験結果から,幾何学的およびテクスチャ的データの両方において,提案手法がより良い圧縮を実現することを示す。
論文 参考訳(メタデータ) (2022-04-25T02:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。