論文の概要: Generative Latent Video Compression
- arxiv url: http://arxiv.org/abs/2510.09987v1
- Date: Sat, 11 Oct 2025 03:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.723451
- Title: Generative Latent Video Compression
- Title(参考訳): 世代別ビデオ圧縮
- Authors: Zongyu Guo, Zhaoyang Jia, Jiahao Li, Xiaoyi Zhang, Bin Li, Yan Lu,
- Abstract要約: 本稿では,知覚的ビデオ圧縮の有効なフレームワークであるジェネレーティブ・ラテント・ビデオ圧縮(GLVC)を提案する。
GLVCは、ビデオフレームを知覚的に整列された潜在空間に投影するために、事前訓練された連続トークンを使用する。
GLVC は DISTS と LPIPS の指標で最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 26.99743586846841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptual optimization is widely recognized as essential for neural compression, yet balancing the rate-distortion-perception tradeoff remains challenging. This difficulty is especially pronounced in video compression, where frame-wise quality fluctuations often cause perceptually optimized neural video codecs to suffer from flickering artifacts. In this paper, inspired by the success of latent generative models, we present Generative Latent Video Compression (GLVC), an effective framework for perceptual video compression. GLVC employs a pretrained continuous tokenizer to project video frames into a perceptually aligned latent space, thereby offloading perceptual constraints from the rate-distortion optimization. We redesign the codec architecture explicitly for the latent domain, drawing on extensive insights from prior neural video codecs, and further equip it with innovations such as unified intra/inter coding and a recurrent memory mechanism. Experimental results across multiple benchmarks show that GLVC achieves state-of-the-art performance in terms of DISTS and LPIPS metrics. Notably, our user study confirms GLVC rivals the latest neural video codecs at nearly half their rate while maintaining stable temporal coherence, marking a step toward practical perceptual video compression.
- Abstract(参考訳): 知覚の最適化はニューラル圧縮に不可欠であると広く認識されているが、速度歪みと知覚のトレードオフのバランスは依然として困難である。
この困難さは特にビデオ圧縮において顕著であり、フレームワイドの品質変動は、知覚的に最適化されたニューラルビデオコーデックがファッケングアーティファクトに悩まされることがしばしばある。
本稿では、潜在生成モデルの成功に触発されて、知覚ビデオ圧縮のための効果的なフレームワークであるジェネレーティブ潜在ビデオ圧縮(GLVC)を提案する。
GLVCは、事前訓練された連続トークン化器を使用して、ビデオフレームを知覚的に整列された潜在空間に投影し、速度歪み最適化から知覚的制約をオフロードする。
我々は、潜在ドメインのためにコーデックアーキテクチャを明示的に再設計し、先行するニューラルビデオコーデックからの広範な洞察に基づき、統合されたイントライン/インターコーディングやリカレントメモリ機構などのイノベーションを取り入れた。
複数のベンチマークでの実験結果から, GLVC は DISTS と LPIPS の指標で最先端のパフォーマンスを達成することが示された。
ユーザの調査によると、GLVCは最新のニューラルビデオコーデックとほぼ半分の速度で競合し、安定した時間的コヒーレンスを維持している。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Foveation-based Deep Video Compression without Motion Search [43.70396515286677]
VRで見るビデオのごく一部しか、ユーザーが特定の方向を見つめるときに見ることができないため、ファベーションプロトコルは望ましい。
我々は、ビットの割り当てを指示するフォベーションマスクを生成するFGU(Foveation Generator Unit)を導入することにより、フォベーションを実現する。
我々の新しい圧縮モデルは、Foveated Motionless VIdeo Codec (Foveated MOVI-Codec)と呼ばれ、モーションを計算せずに効率的に動画を圧縮することができる。
論文 参考訳(メタデータ) (2022-03-30T17:30:17Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。