論文の概要: Hierarchical Vector-Quantized Latents for Perceptual Low-Resolution Video Compression
- arxiv url: http://arxiv.org/abs/2512.24547v1
- Date: Wed, 31 Dec 2025 01:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.52479
- Title: Hierarchical Vector-Quantized Latents for Perceptual Low-Resolution Video Compression
- Title(参考訳): 低解像度映像圧縮のための階層型ベクトル量子化潜水器
- Authors: Manikanta Kotthapalli, Banafsheh Rekabdar,
- Abstract要約: 低解像度ビデオのコンパクトかつ高忠実な潜在表現を生成するために設計されたマルチスケールベクトル量子変分オートコーダ(MS-VQ-VAE)を提案する。
我々のアーキテクチャは、VQ-VAE-2フレームワークを指数展開設定に拡張し、3次元残差畳み込みで構築された2段階の潜伏構造を導入している。
提案フレームワークは、リアルタイムストリーミング、モバイル分析、CDNレベルのストレージ最適化など、帯域幅に敏感なシナリオにおけるスケーラブルなビデオ圧縮に適している。
- 参考スコア(独自算出の注目度): 1.332091725929965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The exponential growth of video traffic has placed increasing demands on bandwidth and storage infrastructure, particularly for content delivery networks (CDNs) and edge devices. While traditional video codecs like H.264 and HEVC achieve high compression ratios, they are designed primarily for pixel-domain reconstruction and lack native support for machine learning-centric latent representations, limiting their integration into deep learning pipelines. In this work, we present a Multi-Scale Vector Quantized Variational Autoencoder (MS-VQ-VAE) designed to generate compact, high-fidelity latent representations of low-resolution video, suitable for efficient storage, transmission, and client-side decoding. Our architecture extends the VQ-VAE-2 framework to a spatiotemporal setting, introducing a two-level hierarchical latent structure built with 3D residual convolutions. The model is lightweight (approximately 18.5M parameters) and optimized for 64x64 resolution video clips, making it appropriate for deployment on edge devices with constrained compute and memory resources. To improve perceptual reconstruction quality, we incorporate a perceptual loss derived from a pre-trained VGG16 network. Trained on the UCF101 dataset using 2-second video clips (32 frames at 16 FPS), on the test set we achieve 25.96 dB PSNR and 0.8375 SSIM. On validation, our model improves over the single-scale baseline by 1.41 dB PSNR and 0.0248 SSIM. The proposed framework is well-suited for scalable video compression in bandwidth-sensitive scenarios, including real-time streaming, mobile video analytics, and CDN-level storage optimization.
- Abstract(参考訳): ビデオトラフィックの指数的な増加は、特にコンテンツ配信ネットワーク(CDN)やエッジデバイスにおいて、帯域幅とストレージインフラへの需要を増大させた。
H.264やHEVCのような従来のビデオコーデックは高い圧縮比を達成するが、主にピクセルドメイン再構築用に設計されており、機械学習中心の潜在表現をネイティブにサポートせず、ディープラーニングパイプラインへの統合を制限している。
本研究では,低解像度ビデオのコンパクトかつ高忠実な潜在表現を生成するためのマルチスケールベクトル量子変分自動符号化(MS-VQ-VAE)を提案する。
我々のアーキテクチャは、VQ-VAE-2フレームワークを時空間設定に拡張し、3D残差畳み込みで構築された2階層階層の潜在構造を導入している。
モデルは軽量(約18.5Mパラメータ)で64x64解像度のビデオクリップに最適化されており、計算とメモリリソースの制約のあるエッジデバイスにデプロイするのに適している。
VGG16ネットワークから得られた知覚的損失を組み込むことにより,知覚的再構築の質を向上させる。
UCF101データセット上で2秒のビデオクリップ(32フレーム16FPS)を使用してトレーニングし、テストセットで25.96dBPSNRと0.8375SSIMを達成した。
検証では,1.41dBのPSNRと0.0248のSSIMで単一スケールのベースラインを改良した。
提案フレームワークは、リアルタイムストリーミング、モバイルビデオ分析、CDNレベルのストレージ最適化など、帯域幅に敏感なシナリオにおけるスケーラブルなビデオ圧縮に適している。
関連論文リスト
- VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Deep Video Coding with Dual-Path Generative Adversarial Network [39.19042551896408]
本稿では,DGVC(Double-path Generative Adversarial Network-based Video)という,効率的なコーデックを提案する。
我々のDGVCは、PSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減する。
論文 参考訳(メタデータ) (2021-11-29T11:39:28Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。