論文の概要: Denoising Vision Transformer Autoencoder with Spectral Self-Regularization
- arxiv url: http://arxiv.org/abs/2511.12633v1
- Date: Sun, 16 Nov 2025 15:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.417596
- Title: Denoising Vision Transformer Autoencoder with Spectral Self-Regularization
- Title(参考訳): スペクトル自己規則化を用いた視覚変換器オートエンコーダ
- Authors: Xunzhi Xiang, Xingye Tian, Guiyu Zhang, Yabo Chen, Shaofeng Zhang, Xuebo Wang, Xin Tao, Qi Fan,
- Abstract要約: 本研究では,高次元潜在空間における冗長な高周波成分が拡散モデルの訓練収束を妨げていることを示す。
本稿では, スペクトル自己正則化手法を提案し, 冗長な高周波ノイズを抑制すると同時に, 復元品質を同時に維持する。
その結果、ViTベースのオートエンコーダであるDenoising-VAEは、よりクリーンで低ノイズの潜伏剤を生成し、生成品質の向上と最適化の高速化につながる。
- 参考スコア(独自算出の注目度): 21.85836384863372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational autoencoders (VAEs) typically encode images into a compact latent space, reducing computational cost but introducing an optimization dilemma: a higher-dimensional latent space improves reconstruction fidelity but often hampers generative performance. Recent methods attempt to address this dilemma by regularizing high-dimensional latent spaces using external vision foundation models (VFMs). However, it remains unclear how high-dimensional VAE latents affect the optimization of generative models. To our knowledge, our analysis is the first to reveal that redundant high-frequency components in high-dimensional latent spaces hinder the training convergence of diffusion models and, consequently, degrade generation quality. To alleviate this problem, we propose a spectral self-regularization strategy to suppress redundant high-frequency noise while simultaneously preserving reconstruction quality. The resulting Denoising-VAE, a ViT-based autoencoder that does not rely on VFMs, produces cleaner, lower-noise latents, leading to improved generative quality and faster optimization convergence. We further introduce a spectral alignment strategy to facilitate the optimization of Denoising-VAE-based generative models. Our complete method enables diffusion models to converge approximately 2$\times$ faster than with SD-VAE, while achieving state-of-the-art reconstruction quality (rFID = 0.28, PSNR = 27.26) and competitive generation performance (gFID = 1.82) on the ImageNet 256$\times$256 benchmark.
- Abstract(参考訳): 可変オートエンコーダ(VAE)は通常、画像をコンパクトな潜在空間にエンコードし、計算コストを削減しながら最適化ジレンマを導入する。
近年の手法では、外部視覚基盤モデル(VFM)を用いて高次元潜在空間を規則化することによって、このジレンマに対処しようとしている。
しかし、高次元のVOE潜伏剤が生成モデルの最適化にどのような影響を及ぼすかは定かではない。
我々の知る限り、我々は高次元潜在空間における冗長な高周波成分が拡散モデルの訓練収束を妨げることを初めて明らかにした。
この問題を軽減するため,再建品質を同時に保ちながら冗長な高周波ノイズを抑制するためのスペクトル自己正規化手法を提案する。
結果として、VFMに依存しないVTベースのオートエンコーダであるDenoising-VAEは、よりクリーンで低ノイズの潜伏剤を生成し、生成品質を改善し、最適化を高速化する。
さらに,Denoising-VAEに基づく生成モデルの最適化を容易にするためのスペクトルアライメント戦略を導入する。
提案手法では,SD-VAEよりも約2$\times$を高速に収束させるとともに,画像Net 256$\times$256ベンチマークにおいて,最先端の再現品質(rFID = 0.28, PSNR = 27.26)と競合生成性能(gFID = 1.82)を実現する。
関連論文リスト
- Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement [89.99237142387655]
LH-VAEを導入し、視覚的意味的制約や進行的劣化による意味的堅牢性を高める。
Latent Harmonyは、UHD修復のためのVAEを再定義する2段階のフレームワークである。
実験により、Latent HarmonyはUHDおよび標準解像度タスクにまたがって最先端のパフォーマンスを実現し、効率、知覚品質、再現精度を効果的にバランスさせることが示されている。
論文 参考訳(メタデータ) (2025-10-09T08:54:26Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。