論文の概要: Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces
- arxiv url: http://arxiv.org/abs/2501.05442v1
- Date: Thu, 09 Jan 2025 18:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:23.926213
- Title: Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces
- Title(参考訳): 高圧縮遅延空間用ビデオトケナイザの進歩的成長
- Authors: Aniruddha Mahapatra, Long Mai, Yitian Zhang, David Bourgin, Feng Liu,
- Abstract要約: ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
- 参考スコア(独自算出の注目度): 20.860632218272094
- License:
- Abstract: Video tokenizers are essential for latent video diffusion models, converting raw video data into spatiotemporally compressed latent spaces for efficient training. However, extending state-of-the-art video tokenizers to achieve a temporal compression ratio beyond 4x without increasing channel capacity poses significant challenges. In this work, we propose an alternative approach to enhance temporal compression. We find that the reconstruction quality of temporally subsampled videos from a low-compression encoder surpasses that of high-compression encoders applied to original videos. This indicates that high-compression models can leverage representations from lower-compression models. Building on this insight, we develop a bootstrapped high-temporal-compression model that progressively trains high-compression blocks atop well-trained lower-compression models. Our method includes a cross-level feature-mixing module to retain information from the pretrained low-compression model and guide higher-compression blocks to capture the remaining details from the full video sequence. Evaluation of video benchmarks shows that our method significantly improves reconstruction quality while increasing temporal compression compared to direct extensions of existing video tokenizers. Furthermore, the resulting compact latent space effectively trains a video diffusion model for high-quality video generation with a reduced token budget.
- Abstract(参考訳): ビデオ・トークンーザは遅延ビデオ拡散モデルにおいて必須であり、生のビデオデータを時空間圧縮潜時空間に変換して効率的なトレーニングを行う。
しかし、チャネル容量を増大させることなく4倍を超える時間圧縮比を達成するために最先端のビデオトークン化装置を拡張することは大きな課題となる。
本研究では,時間圧縮を強化するための代替手法を提案する。
その結果,低圧縮エンコーダの時分割ビデオの再生品質が,オリジナルビデオに適用された高圧縮エンコーダの再生品質を上回っていることが判明した。
これは、高圧縮モデルが低圧縮モデルからの表現を活用できることを示唆している。
この知見に基づいて, 十分に訓練された低圧縮モデル上に, 高圧縮ブロックを漸進的に訓練するブートストラップ付き高時間圧縮モデルを開発した。
提案手法は,事前訓練された低圧縮モデルからの情報を保持し,高圧縮ブロックを誘導し,残余の詳細をフルビデオシーケンスからキャプチャするクロスレベル機能混合モジュールを含む。
ビデオベンチマークの評価では,既存のビデオトークンの直接拡張に比べて時間圧縮を増大させながら,再現性を大幅に向上することが示された。
さらに、結果として生じるコンパクト潜在空間は、トークン予算を削減した高品質なビデオ生成のためのビデオ拡散モデルを効果的に訓練する。
関連論文リスト
- Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution [13.103621878352314]
ビデオスーパーレゾリューション (VSR) はビデオの高精細化に有効な手法であるが、比較的VSR法は圧縮ビデオに焦点を当てている。
圧縮VSRのための空間劣化認識・時間一貫性拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-11T08:57:45Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Feedback Recurrent Autoencoder for Video Compression [14.072596106425072]
低レイテンシモードで動作する学習ビデオ圧縮のための新しいネットワークアーキテクチャを提案する。
提案手法は,高分解能UVGデータセット上でのMS-SSIM/レート性能を示す。
論文 参考訳(メタデータ) (2020-04-09T02:58:07Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。