論文の概要: MTC-VAE: Multi-Level Temporal Compression with Content Awareness
- arxiv url: http://arxiv.org/abs/2602.01340v1
- Date: Sun, 01 Feb 2026 17:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.723859
- Title: MTC-VAE: Multi-Level Temporal Compression with Content Awareness
- Title(参考訳): MTC-VAE:コンテンツ認識を伴うマルチレベルテンポラル圧縮
- Authors: Yubo Dong, Linchao Zhu,
- Abstract要約: Latent Video Diffusion Models (LVDMs) は可変オートエンコーダ (VAEs) を使ってビデオをコンパクトな遅延表現に圧縮する。
固定圧縮率VAEを多段階時間圧縮をサポートするモデルに変換する手法を提案する。
- 参考スコア(独自算出の注目度): 54.85288415164888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Video Diffusion Models (LVDMs) rely on Variational Autoencoders (VAEs) to compress videos into compact latent representations. For continuous Variational Autoencoders (VAEs), achieving higher compression rates is desirable; yet, the efficiency notably declines when extra sampling layers are added without expanding the dimensions of hidden channels. In this paper, we present a technique to convert fixed compression rate VAEs into models that support multi-level temporal compression, providing a straightforward and minimal fine-tuning approach to counteract performance decline at elevated compression rates.Moreover, we examine how varying compression levels impact model performance over video segments with diverse characteristics, offering empirical evidence on the effectiveness of our proposed approach. We also investigate the integration of our multi-level temporal compression VAE with diffusion-based generative models, DiT, highlighting successful concurrent training and compatibility within these frameworks. This investigation illustrates the potential uses of multi-level temporal compression.
- Abstract(参考訳): Latent Video Diffusion Models (LVDMs) は可変オートエンコーダ (VAEs) を使ってビデオをコンパクトな遅延表現に圧縮する。
連続変分オートエンコーダ(VAE)では、高い圧縮率を達成することが望ましいが、隠れチャネルの次元を拡大することなく余分なサンプリング層を追加すると、効率は顕著に低下する。
本稿では,多段階の時間圧縮をサポートするモデルに固定圧縮率VAEを変換し,高圧縮速度で性能低下に対処するための簡易かつ最小限の微調整手法を提供する手法を提案する。
また、拡散に基づく生成モデルであるDiTとマルチレベル時間圧縮VAEの統合についても検討し、これらのフレームワーク内での同時トレーニングと互換性の成功を強調した。
本研究は多段階時間圧縮の可能性を示す。
関連論文リスト
- DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework [45.134271969594614]
まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
論文 参考訳(メタデータ) (2025-08-11T06:59:23Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution [25.615935776826596]
ストレージと帯域幅の制限により、インターネット上で送信されるビデオは低画質で圧縮されたアーティファクトを特徴とすることが多い。
ビデオ超解像(VSR)は効率的なビデオ強調技術であるが、既存のVS手法では圧縮ビデオに焦点を絞らない。
圧縮VSRのための事前学習拡散モデルの先行性を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T08:57:45Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。