論文の概要: Delving into Latent Spectral Biasing of Video VAEs for Superior Diffusability
- arxiv url: http://arxiv.org/abs/2512.05394v1
- Date: Fri, 05 Dec 2025 03:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.884134
- Title: Delving into Latent Spectral Biasing of Video VAEs for Superior Diffusability
- Title(参考訳): ビデオVAEの遅延スペクトルバイアスへの着地
- Authors: Shizhan Liu, Xinran Deng, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Jie Tang,
- Abstract要約: 本稿では,ビデオVAEラテント空間の統計的解析を行い,拡散訓練に不可欠な2つの特性を同定する。
局所相関正則化と潜在仮面再構成の2つの軽量なバックボーン非依存正規化器を提案する。
実験によると、我々のSpectral-Structured VAEは、テキストとビデオの収束の3倍のスピードアップ、ビデオ報酬の10%アップを実現し、強力なオープンソースVAEを上回っている。
- 参考スコア(独自算出の注目度): 21.927814986478356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models pair VAEs with diffusion backbones, and the structure of VAE latents strongly influences the difficulty of diffusion training. However, existing video VAEs typically focus on reconstruction fidelity, overlooking latent structure. We present a statistical analysis of video VAE latent spaces and identify two spectral properties essential for diffusion training: a spatio-temporal frequency spectrum biased toward low frequencies, and a channel-wise eigenspectrum dominated by a few modes. To induce these properties, we propose two lightweight, backbone-agnostic regularizers: Local Correlation Regularization and Latent Masked Reconstruction. Experiments show that our Spectral-Structured VAE (SSVAE) achieves a $3\times$ speedup in text-to-video generation convergence and a 10\% gain in video reward, outperforming strong open-source VAEs. The code is available at https://github.com/zai-org/SSVAE.
- Abstract(参考訳): 潜伏拡散モデルでは、拡散バックボーンとVAEをペアリングし、VAE潜伏体の構造は拡散訓練の難しさに強く影響を及ぼす。
しかし、既存のビデオVAEは典型的には復元の忠実さに重点を置いており、潜伏した構造を見下ろしている。
本稿では,ビデオVAE潜時空間の統計的解析を行い,拡散訓練に必要な2つのスペクトル特性を同定する。
これらの特性を誘導するために、局所相関正則化と潜在マスケッド再構成という2つの軽量なバックボーン非依存正規化器を提案する。
実験により、我々のスペクトル構造型VAE(SSVAE)は、テキスト・ビデオ生成収束の3倍のスピードアップ、動画報酬の10倍のアップを達成し、強力なオープンソースVAEを上回っていることが示された。
コードはhttps://github.com/zai-org/SSVAE.comで公開されている。
関連論文リスト
- Lazy Diffusion: Mitigating spectral collapse in generative diffusion-based stable autoregressive emulation of turbulent flows [0.0]
標準DDPMは基本的な赤外崩壊を引き起こすことを示す。
拡散時間内に微細構造を深く保存するパワー・ロー・スケジュールを導入する。
これらの手法はレイノルズ数2Dコルモゴロフ乱流とメキシコ湾の1/12円の海面再解析に応用される。
論文 参考訳(メタデータ) (2025-12-10T12:05:32Z) - Frequency Regulation for Exposure Bias Mitigation in Diffusion Models [15.61368627978836]
逆過程における予測ノイズサンプルのエネルギーは、前方過程における摂動サンプルと比較して連続的に減少する。
我々はウェーブレット変換を利用した動的周波数制御機構を導入し、低周波サブバンドと高周波サブバンドを別々に調整する。
我々は厳密な数学的形態の露出バイアスを導出する。
論文 参考訳(メタデータ) (2025-07-14T08:58:38Z) - FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Time Series Diffusion in the Frequency Domain [54.60573052311487]
周波数領域における時系列表現がスコアベース拡散モデルに有用な帰納バイアスであるか否かを解析する。
重要なニュアンスを持つ周波数領域において、二重拡散過程が生じることを示す。
周波数領域に拡散モデルを実装するために,デノナイジングスコアマッチング手法を適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T18:59:05Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。