論文の概要: WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.17459v2
- Date: Wed, 27 Nov 2024 08:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 11:38:25.066103
- Title: WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
- Title(参考訳): WF-VAE:遅延ビデオ拡散モデルのためのウェーブレット駆動型エネルギー流によるビデオVAEの強化
- Authors: Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan,
- Abstract要約: ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
- 参考スコア(独自算出の注目度): 15.171544722138806
- License:
- Abstract: Video Variational Autoencoder (VAE) encodes videos into a low-dimensional latent space, becoming a key component of most Latent Video Diffusion Models (LVDMs) to reduce model training costs. However, as the resolution and duration of generated videos increase, the encoding cost of Video VAEs becomes a limiting bottleneck in training LVDMs. Moreover, the block-wise inference method adopted by most LVDMs can lead to discontinuities of latent space when processing long-duration videos. The key to addressing the computational bottleneck lies in decomposing videos into distinct components and efficiently encoding the critical information. Wavelet transform can decompose videos into multiple frequency-domain components and improve the efficiency significantly, we thus propose Wavelet Flow VAE (WF-VAE), an autoencoder that leverages multi-level wavelet transform to facilitate low-frequency energy flow into latent representation. Furthermore, we introduce a method called Causal Cache, which maintains the integrity of latent space during block-wise inference. Compared to state-of-the-art video VAEs, WF-VAE demonstrates superior performance in both PSNR and LPIPS metrics, achieving 2x higher throughput and 4x lower memory consumption while maintaining competitive reconstruction quality. Our code and models are available at https://github.com/PKU-YuanGroup/WF-VAE.
- Abstract(参考訳): ビデオ変分オートエンコーダ(VAE)は低次元の遅延空間にビデオをエンコードし、ほとんどの遅延ビデオ拡散モデル(LVDM)の重要なコンポーネントとなり、モデルのトレーニングコストを削減する。
しかし、生成されたビデオの解像度と持続時間が増加するにつれて、ビデオVAEの符号化コストは、LVDMの訓練において限界となる。
さらに、ほとんどのLVDMで採用されているブロックワイド推論法は、長周期ビデオを処理する際に、遅延空間が不連続になる可能性がある。
計算ボトルネックに対処する鍵は、ビデオを別のコンポーネントに分解し、臨界情報を効率的に符号化することにある。
ウェーブレット変換は、複数の周波数領域に分割し、効率を大幅に向上させることができるので、マルチレベルウェーブレット変換を利用して遅延表現への低周波エネルギーフローを促進する自動エンコーダであるWavelet Flow VAE(WF-VAE)を提案する。
さらに,ブロックワイズ推論における潜在空間の整合性を維持するCausal Cacheという手法を導入する。
WF-VAEは最先端ビデオVAEと比較してPSNRとLPIPSの両方で優れた性能を示し、2倍のスループットと4倍のメモリ消費を実現し、競合する再構成品質を維持している。
私たちのコードとモデルはhttps://github.com/PKU-YuanGroup/WF-VAE.comで公開されています。
関連論文リスト
- BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
本稿では,映像の空間的特徴と時間的特徴をよりよく表現するための2つのキーモジュールを備えたC-STVSRフレームワークを提案する。
提案手法は最新のPSNRとSSIMの性能を実現し,空間的詳細化と時間的自然整合性を示す。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文 参考訳(メタデータ) (2024-12-30T19:00:25Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model [33.766339921655025]
変分オートエンコーダ(VAE)圧縮映像の潜時表現への変換は、潜時ビデオ拡散モデル(LVDM)の重要な構成要素である
ほとんどのLVDMは2次元画像VAEを使用し、ビデオの圧縮は空間次元のみであり、時間次元では無視されることが多い。
本稿では、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。
論文 参考訳(メタデータ) (2024-09-02T12:20:42Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Deep Video Coding with Dual-Path Generative Adversarial Network [39.19042551896408]
本稿では,DGVC(Double-path Generative Adversarial Network-based Video)という,効率的なコーデックを提案する。
我々のDGVCは、PSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減する。
論文 参考訳(メタデータ) (2021-11-29T11:39:28Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - Multi-level Wavelet-based Generative Adversarial Network for Perceptual
Quality Enhancement of Compressed Video [51.631731922593225]
既存の手法は主に、その知覚的品質を無視しながら、圧縮映像の客観的品質を高めることに焦点を当てている。
圧縮ビデオの知覚品質を高めるために,マルチレベルウェーブレットパケット変換(WPT)に基づくGAN(Generative Adversarial Network)を提案する。
論文 参考訳(メタデータ) (2020-08-02T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。