論文の概要: Improved Video VAE for Latent Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.06449v1
- Date: Sun, 10 Nov 2024 12:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:08:05.743353
- Title: Improved Video VAE for Latent Video Diffusion Model
- Title(参考訳): 潜時ビデオ拡散モデルのためのビデオVAEの改良
- Authors: Pingyu Wu, Kai Zhu, Yu Liu, Liming Zhao, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
- 参考スコア(独自算出の注目度): 55.818110540710215
- License:
- Abstract: Variational Autoencoder (VAE) aims to compress pixel data into low-dimensional latent space, playing an important role in OpenAI's Sora and other latent video diffusion generation models. While most of existing video VAEs inflate a pretrained image VAE into the 3D causal structure for temporal-spatial compression, this paper presents two astonishing findings: (1) The initialization from a well-trained image VAE with the same latent dimensions suppresses the improvement of subsequent temporal compression capabilities. (2) The adoption of causal reasoning leads to unequal information interactions and unbalanced performance between frames. To alleviate these problems, we propose a keyframe-based temporal compression (KTC) architecture and a group causal convolution (GCConv) module to further improve video VAE (IV-VAE). Specifically, the KTC architecture divides the latent space into two branches, in which one half completely inherits the compression prior of keyframes from a lower-dimension image VAE while the other half involves temporal compression through 3D group causal convolution, reducing temporal-spatial conflicts and accelerating the convergence speed of video VAE. The GCConv in above 3D half uses standard convolution within each frame group to ensure inter-frame equivalence, and employs causal logical padding between groups to maintain flexibility in processing variable frame video. Extensive experiments on five benchmarks demonstrate the SOTA video reconstruction and generation capabilities of the proposed IV-VAE (https://wpy1999.github.io/IV-VAE/).
- Abstract(参考訳): 可変オートエンコーダ (VAE) は、低次元の潜在空間に画素データを圧縮することを目的としており、OpenAIのSoraや他の潜在ビデオ拡散生成モデルにおいて重要な役割を果たす。
既存のビデオVAEのほとんどは、時間空間圧縮のための3次元因果構造に事前訓練された画像VAEを注入するが、(1)同じ遅延次元のよく訓練された画像VAEからの初期化は、後続の時間圧縮能力の向上を抑制する。
2)因果推論の導入は,不平等な情報相互作用とフレーム間の不均衡な性能をもたらす。
これらの問題を緩和するために、ビデオVAE(IV-VAE)をさらに改善するために、キーフレームベースの時間圧縮(KTC)アーキテクチャとGCConv(GCConv)モジュールを提案する。
具体的には、KTCアーキテクチャは潜伏空間を2つの分岐に分割し、一方は低次元画像VAEから鍵フレームの圧縮を完全継承し、他方は3次元グループ因果畳み込みによる時間的圧縮を伴い、時間的空間的衝突を低減し、ビデオVAEの収束速度を加速する。
上述の3D半分のGCConvは、フレーム間の等価性を確保するために各フレームグループ内の標準の畳み込みを使用し、グループ間の因果論理パディングを用いて、可変フレームビデオの処理の柔軟性を維持する。
5つのベンチマークでの大規模な実験は、提案されたIV-VAE(https://wpy 1999.github.io/IV-VAE/)のSOTAビデオ再構成と生成能力を示している。
関連論文リスト
- DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation [16.216254819711327]
本研究では,動的遅延フレームレートVAE(DLFR-VAE)を提案する。
我々のシンプルだが効果的なDLFR-VAEはプラグイン・アンド・プレイモジュールとして機能し、既存のビデオ生成モデルとシームレスに統合できる。
論文 参考訳(メタデータ) (2025-02-17T15:22:31Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - CV-VAE: A Compatible Video VAE for Latent Generative Video Models [45.702473834294146]
可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:33:10Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。