論文の概要: Latent-Compressed Variational Autoencoder for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2604.16479v1
- Date: Sun, 12 Apr 2026 04:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.012203
- Title: Latent-Compressed Variational Autoencoder for Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルのための潜時圧縮変分オートエンコーダ
- Authors: Jiarui Guan, Wenshuai Zhao, Zhengtao Zou, Juho Kannala, Arno Solin,
- Abstract要約: 本稿では,チャネル数を直接削減するのではなく,ビデオ遅延表現の高周波成分を除去する潜時圧縮法を提案する。
実験により, 提案手法は, 強いベースラインに比べて, 優れた映像再構成品質を実現することを示した。
- 参考スコア(独自算出の注目度): 27.770924931403997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video variational autoencoders (VAEs) used in latent diffusion models typically require a sufficiently large number of latent channels to ensure high-quality video reconstruction. However, recent studies have revealed that an excessive number of latent channels can impede the convergence of latent diffusion models and deteriorate their generative performance, even when reconstruction quality remains high. We propose a latent compression method that removes high-frequency components in video latent representations rather than directly reducing the number of channels, which often compromises reconstruction fidelity. Experimental results demonstrate that the proposed method achieves superior video reconstruction quality compared to strong baselines while maintaining the same overall compression ratio.
- Abstract(参考訳): 遅延拡散モデルで使用されるビデオ変分オートエンコーダ(VAE)は通常、高品質なビデオ再構成を保証するために十分な数の遅延チャネルを必要とする。
しかし,近年の研究では,過剰な潜伏流路が潜伏拡散モデルの収束を阻害し,再生性能を低下させる可能性が示唆されている。
本稿では、直接チャネル数を減少させるのではなく、ビデオ遅延表現の高周波成分を除去する潜時圧縮法を提案する。
実験により, 提案手法は, 圧縮率を同じに保ちながら, 高いベースラインに比較して, 高品質な映像再構成を実現することを示した。
関連論文リスト
- LCUDiff: Latent Capacity Upgrade Diffusion for Faithful Human Body Restoration [23.264518366939825]
劣化した人中心のイメージを復元する既存の方法は、しばしば不十分な忠実さに苦しむ。
そこで我々はLCUDiffを提案する。LCUDiffは訓練済みの潜伏拡散モデルをアップグレードする安定なワンステップフレームワークである。
合成および実世界のデータセットの実験は、より高い忠実度と少ないアーティファクトによる競争結果を示している。
論文 参考訳(メタデータ) (2026-02-04T10:37:46Z) - LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。
我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文 参考訳(メタデータ) (2025-10-01T18:10:08Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Progressive Growing of Video Tokenizers for Temporally Compact Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文 参考訳(メタデータ) (2025-01-09T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。