論文の概要: H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.10567v1
- Date: Mon, 14 Apr 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 09:15:01.951756
- Title: H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models
- Title(参考訳): H3AE:ビデオ拡散モデルのための高速・高速・高品質オートエンコーダ
- Authors: Yushu Wu, Yanyu Li, Ivan Skorokhodov, Anil Kag, Willi Menapace, Sharath Girish, Aliaksandr Siarohin, Yanzhi Wang, Sergey Tulyakov,
- Abstract要約: オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。
我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
- 参考スコア(独自算出の注目度): 76.1519545010611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoencoder (AE) is the key to the success of latent diffusion models for image and video generation, reducing the denoising resolution and improving efficiency. However, the power of AE has long been underexplored in terms of network design, compression ratio, and training strategy. In this work, we systematically examine the architecture design choices and optimize the computation distribution to obtain a series of efficient and high-compression video AEs that can decode in real time on mobile devices. We also unify the design of plain Autoencoder and image-conditioned I2V VAE, achieving multifunctionality in a single network. In addition, we find that the widely adopted discriminative losses, i.e., GAN, LPIPS, and DWT losses, provide no significant improvements when training AEs at scale. We propose a novel latent consistency loss that does not require complicated discriminator design or hyperparameter tuning, but provides stable improvements in reconstruction quality. Our AE achieves an ultra-high compression ratio and real-time decoding speed on mobile while outperforming prior art in terms of reconstruction metrics by a large margin. We finally validate our AE by training a DiT on its latent space and demonstrate fast, high-quality text-to-video generation capability.
- Abstract(参考訳): オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵であり、分解能を低減し、効率を向上させる。
しかし、AEのパワーは、ネットワーク設計、圧縮比、トレーニング戦略の点で長い間過小評価されてきた。
本研究では,アーキテクチャ設計の選択を体系的に検討し,計算分布を最適化し,モバイル端末上でリアルタイムにデコード可能な,効率的かつ高圧縮なビデオAEを得る。
また,平易なオートエンコーダとイメージコンディショニングされたI2V VAEの設計を統一し,単一ネットワークにおける多機能性を実現する。
さらに, GAN, LPIPS, DWT損失など広く採用されている差別的損失は, AEsを大規模に訓練する際の大幅な改善にはならないことがわかった。
本稿では,複雑な識別器設計やハイパーパラメータチューニングを必要としない新しい遅延整合性損失を提案する。
AEはモバイル上での超高速圧縮率とリアルタイム復号化速度を達成し,再現率の点で先行技術よりも高い性能を実現した。
我々は最終的に、DiTを潜在空間でトレーニングし、高速で高品質なテキスト・ビデオ生成能力を実証することで、AEを検証する。
関連論文リスト
- LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文 参考訳(メタデータ) (2025-03-18T14:58:59Z) - Pathology Image Compression with Pre-trained Autoencoders [52.208181380986524]
デジタル病理学における全スライド画像は、記憶、伝達、計算効率の面で大きな課題をもたらす。
JPEGのような標準的な圧縮手法はファイルサイズを小さくするが、下流のタスクに不可欠な微細な表現型の詳細を保存できない。
本研究では,遅延拡散モデル用に設計されたオートエンコーダ(AE)を,病理画像の効率的な学習圧縮フレームワークとして再利用する。
論文 参考訳(メタデータ) (2025-03-14T17:01:17Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [38.84567900296605]
ディープ圧縮オートエンコーダ (DC-AE) は高分解能拡散モデルの高速化を目的とした新しいオートエンコーダモデルである。
遅延拡散モデルへの直流-AEの適用により,精度低下のない大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-10-14T17:15:07Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。