論文の概要: OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2409.01199v2
- Date: Mon, 9 Sep 2024 13:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:55:38.381609
- Title: OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
- Title(参考訳): OD-VAE:潜時ビデオ拡散モデル改善のための全次元ビデオ圧縮機
- Authors: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinhua Cheng, Li Yuan,
- Abstract要約: 変分オートエンコーダ(VAE)圧縮映像の潜時表現への変換は、潜時ビデオ拡散モデル(LVDM)の重要な構成要素である
ほとんどのLVDMは2次元画像VAEを使用し、ビデオの圧縮は空間次元のみであり、時間次元では無視されることが多い。
本稿では、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。
- 参考スコア(独自算出の注目度): 33.766339921655025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoder (VAE), compressing videos into latent representations, is a crucial preceding component of Latent Video Diffusion Models (LVDMs). With the same reconstruction quality, the more sufficient the VAE's compression for videos is, the more efficient the LVDMs are. However, most LVDMs utilize 2D image VAE, whose compression for videos is only in the spatial dimension and often ignored in the temporal dimension. How to conduct temporal compression for videos in a VAE to obtain more concise latent representations while promising accurate reconstruction is seldom explored. To fill this gap, we propose an omni-dimension compression VAE, named OD-VAE, which can temporally and spatially compress videos. Although OD-VAE's more sufficient compression brings a great challenge to video reconstruction, it can still achieve high reconstructed accuracy by our fine design. To obtain a better trade-off between video reconstruction quality and compression speed, four variants of OD-VAE are introduced and analyzed. In addition, a novel tail initialization is designed to train OD-VAE more efficiently, and a novel inference strategy is proposed to enable OD-VAE to handle videos of arbitrary length with limited GPU memory. Comprehensive experiments on video reconstruction and LVDM-based video generation demonstrate the effectiveness and efficiency of our proposed methods.
- Abstract(参考訳): 可変オートエンコーダ (VAE) は遅延表現に動画を圧縮し、遅延ビデオ拡散モデル (LVDM) に先行する重要なコンポーネントである。
再現品質が同じであれば、ビデオに対するVAEの圧縮が十分であればなるほど、LVDMはより効率的になります。
しかし、ほとんどのLVDMは、ビデオの圧縮が空間次元でのみ行われ、時間次元ではしばしば無視される2D画像VAEを使用している。
正確な再現を約束しながら、より簡潔な潜在表現を得るために、VAE内のビデオの時間的圧縮を実行する方法はめったにない。
このギャップを埋めるために、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。
OD-VAEのより十分な圧縮は、ビデオ再構成に大きな課題をもたらすが、細かな設計によって高い再構成精度を達成することができる。
映像再構成品質と圧縮速度のトレードオフを改善するために、OD-VAEの4つの変種を導入分析する。
さらに、OD-VAEをより効率的にトレーニングするための新しいテール初期化を設計し、GPUメモリに制限のある任意の長さの動画をOD-VAEが扱えるようにするための新しい推論戦略を提案する。
ビデオ再構成とLVDMに基づくビデオ生成に関する総合的な実験により,提案手法の有効性と有効性を示した。
関連論文リスト
- SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration [73.70209718408641]
SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-01-02T16:19:48Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [15.171544722138806]
ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
論文 参考訳(メタデータ) (2024-11-26T14:23:53Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - CV-VAE: A Compatible Video VAE for Latent Generative Video Models [45.702473834294146]
可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:33:10Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Foveation-based Deep Video Compression without Motion Search [43.70396515286677]
VRで見るビデオのごく一部しか、ユーザーが特定の方向を見つめるときに見ることができないため、ファベーションプロトコルは望ましい。
我々は、ビットの割り当てを指示するフォベーションマスクを生成するFGU(Foveation Generator Unit)を導入することにより、フォベーションを実現する。
我々の新しい圧縮モデルは、Foveated Motionless VIdeo Codec (Foveated MOVI-Codec)と呼ばれ、モーションを計算せずに効率的に動画を圧縮することができる。
論文 参考訳(メタデータ) (2022-03-30T17:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。