論文の概要: LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.14325v1
- Date: Tue, 18 Mar 2025 14:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:14:39.624639
- Title: LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models
- Title(参考訳): LeanVAE: ビデオ拡散モデルのための超効率的な再構成VAE
- Authors: Yu Cheng, Fajie Yuan,
- Abstract要約: 本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
- 参考スコア(独自算出の注目度): 17.29580459404157
- License:
- Abstract: Recent advances in Latent Video Diffusion Models (LVDMs) have revolutionized video generation by leveraging Video Variational Autoencoders (Video VAEs) to compress intricate video data into a compact latent space.However, as LVDM training scales, the computational overhead of Video VAEs becomes a critical bottleneck, particularly for encoding high-resolution videos. To address this, we propose LeanVAE, a novel and ultra-efficient Video VAE framework that introduces two key innovations: (1) a lightweight architecture based on a Neighborhood-Aware Feedforward (NAF) module and non-overlapping patch operations, drastically reducing computational cost, and (2) the integration of wavelet transforms and compressed sensing techniques to enhance reconstruction quality. Extensive experiments validate LeanVAE's superiority in video reconstruction and generation, particularly in enhancing efficiency over existing Video VAEs.Our model offers up to 50x fewer FLOPs and 44x faster inference speed while maintaining competitive reconstruction quality, providing insights for scalable, efficient video generation.Our models and code are available at https://github.com/westlake-repl/LeanVAE.
- Abstract(参考訳): 近年のラテントビデオ拡散モデル(LVDM)の進歩は、ビデオ変分オートエンコーダ(ビデオVAE)を活用して、複雑な映像データをコンパクトなラテント空間に圧縮することで、映像生成に革命をもたらしたが、LVDMの訓練規模が大きくなるにつれ、ビデオVAEの計算オーバーヘッドは、特に高解像度ビデオの符号化において重要なボトルネックとなっている。
そこで本研究では,(1)近辺対応フィードフォワード(NAF)モジュールと非重複パッチ操作に基づく軽量アーキテクチャ,(2)計算コストを大幅に削減し,(2)ウェーブレット変換と圧縮センシング技術の統合による再構築品質の向上,という2つの重要なイノベーションを取り入れた,斬新で高効率なビデオVAEフレームワークであるLeanVAEを提案する。
我々のモデルは、競争力のある再構成品質を維持しながら、最大50倍のFLOPと44倍高速な推論速度を提供し、スケーラブルで効率的なビデオ生成の洞察を提供する。
関連論文リスト
- Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [15.171544722138806]
ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
論文 参考訳(メタデータ) (2024-11-26T14:23:53Z) - OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model [33.766339921655025]
変分オートエンコーダ(VAE)圧縮映像の潜時表現への変換は、潜時ビデオ拡散モデル(LVDM)の重要な構成要素である
ほとんどのLVDMは2次元画像VAEを使用し、ビデオの圧縮は空間次元のみであり、時間次元では無視されることが多い。
本稿では、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。
論文 参考訳(メタデータ) (2024-09-02T12:20:42Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models [27.795088366122297]
潜在拡散モデル(LDM)のための新しいオートエンコーダ設計である LiteVAE を導入する。
LiteVAEは2次元離散ウェーブレット変換を使用して、標準変分オートエンコーダ(VAE)よりもスケーラビリティと計算効率を向上させる。
論文 参考訳(メタデータ) (2024-05-23T12:06:00Z) - Binarized Low-light Raw Video Enhancement [49.65466843856074]
ディープニューラルネットワークは、低照度生ビデオの強化において優れたパフォーマンスを実現している。
本稿では,低照度生ビデオエンハンスメントに超コンパクトなバイナリニューラルネットワーク(BNN)を適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-03-29T02:55:07Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。