論文の概要: LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.14325v1
- Date: Tue, 18 Mar 2025 14:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:13.149579
- Title: LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models
- Title(参考訳): LeanVAE: ビデオ拡散モデルのための超効率的な再構成VAE
- Authors: Yu Cheng, Fajie Yuan,
- Abstract要約: 本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
- 参考スコア(独自算出の注目度): 17.29580459404157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Latent Video Diffusion Models (LVDMs) have revolutionized video generation by leveraging Video Variational Autoencoders (Video VAEs) to compress intricate video data into a compact latent space.However, as LVDM training scales, the computational overhead of Video VAEs becomes a critical bottleneck, particularly for encoding high-resolution videos. To address this, we propose LeanVAE, a novel and ultra-efficient Video VAE framework that introduces two key innovations: (1) a lightweight architecture based on a Neighborhood-Aware Feedforward (NAF) module and non-overlapping patch operations, drastically reducing computational cost, and (2) the integration of wavelet transforms and compressed sensing techniques to enhance reconstruction quality. Extensive experiments validate LeanVAE's superiority in video reconstruction and generation, particularly in enhancing efficiency over existing Video VAEs.Our model offers up to 50x fewer FLOPs and 44x faster inference speed while maintaining competitive reconstruction quality, providing insights for scalable, efficient video generation.Our models and code are available at https://github.com/westlake-repl/LeanVAE.
- Abstract(参考訳): 近年のラテントビデオ拡散モデル(LVDM)の進歩は、ビデオ変分オートエンコーダ(ビデオVAE)を活用して、複雑な映像データをコンパクトなラテント空間に圧縮することで、映像生成に革命をもたらしたが、LVDMの訓練規模が大きくなるにつれ、ビデオVAEの計算オーバーヘッドは、特に高解像度ビデオの符号化において重要なボトルネックとなっている。
そこで本研究では,(1)近辺対応フィードフォワード(NAF)モジュールと非重複パッチ操作に基づく軽量アーキテクチャ,(2)計算コストを大幅に削減し,(2)ウェーブレット変換と圧縮センシング技術の統合による再構築品質の向上,という2つの重要なイノベーションを取り入れた,斬新で高効率なビデオVAEフレームワークであるLeanVAEを提案する。
我々のモデルは、競争力のある再構成品質を維持しながら、最大50倍のFLOPと44倍高速な推論速度を提供し、スケーラブルで効率的なビデオ生成の洞察を提供する。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。
我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
Diffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウンバージョン(3$times$推論スピードアップ)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [15.171544722138806]
ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
論文 参考訳(メタデータ) (2024-11-26T14:23:53Z) - OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model [33.766339921655025]
変分オートエンコーダ(VAE)圧縮映像の潜時表現への変換は、潜時ビデオ拡散モデル(LVDM)の重要な構成要素である
ほとんどのLVDMは2次元画像VAEを使用し、ビデオの圧縮は空間次元のみであり、時間次元では無視されることが多い。
本稿では、時間的・空間的に動画を圧縮できるOD-VAEという全次元圧縮VAEを提案する。
論文 参考訳(メタデータ) (2024-09-02T12:20:42Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。