論文の概要: Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion
- arxiv url: http://arxiv.org/abs/2603.14645v1
- Date: Sun, 15 Mar 2026 22:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.937227
- Title: Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion
- Title(参考訳): スペクトルマッチング:潜伏拡散における上微分可能性の統一的視点
- Authors: Mang Ning, Mingxiao Li, Le Zhang, Lanmiao Liu, Matthew B. Blaschko, Albert Ali Salah, Itir Onal Ertugrul,
- Abstract要約: MSEの目的によって訓練された画素空間拡散は、本質的に低周波と中周波の学習に偏っていることを示す。
この結果から,emphSpectrum Matching hypothesisを提案する。
スペクトルマッチングは,CelebA と ImageNet のデータセット上での拡散生成に優れることを示す。
- 参考スコア(独自算出の注目度): 20.731913778080344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the diffusability (learnability) of variational autoencoders (VAE) in latent diffusion. First, we show that pixel-space diffusion trained with an MSE objective is inherently biased toward learning low and mid spatial frequencies, and that the power-law power spectral density (PSD) of natural images makes this bias perceptually beneficial. Motivated by this result, we propose the \emph{Spectrum Matching Hypothesis}: latents with superior diffusability should (i) follow a flattened power-law PSD (\emph{Encoding Spectrum Matching}, ESM) and (ii) preserve frequency-to-frequency semantic correspondence through the decoder (\emph{Decoding Spectrum Matching}, DSM). In practice, we apply ESM by matching the PSD between images and latents, and DSM via shared spectral masking with frequency-aligned reconstruction. Importantly, Spectrum Matching provides a unified view that clarifies prior observations of over-noisy or over-smoothed latents, and interprets several recent methods as special cases (e.g., VA-VAE, EQ-VAE). Experiments suggest that Spectrum Matching yields superior diffusion generation on CelebA and ImageNet datasets, and outperforms prior approaches. Finally, we extend the spectral view to representation alignment (REPA): we show that the directional spectral energy of the target representation is crucial for REPA, and propose a DoG-based method to further improve the performance of REPA. Our code is available https://github.com/forever208/SpectrumMatching.
- Abstract(参考訳): 本稿では,変分オートエンコーダ(VAE)の潜時拡散における拡散性(学習性)について検討する。
まず、MSE目標で訓練された画素空間拡散は、本質的に低周波と中周波の学習に偏りがあることを示し、自然画像のパワーローパワースペクトル密度(PSD)が、この偏りを知覚的に有益であることを示す。
この結果に動機付けられて,より優れた拡散性を有する潜伏者について, \emph{Spectrum Matching hypothesis} を提案する。
(i)フラット化されたパワーローPSD(\emph{Encoding Spectrum Matching}, ESM)および
(2)デコーダ (\emph{Decoding Spectrum Matching}, DSM) を通して周波数間セマンティック通信を保存する。
実際には、画像と潜伏者のPSDとDSMとを、周波数整合再構成と共有スペクトルマスキングによりマッチングすることで、ESMを適用している。
重要な点として、スペクトルマッチングは、過剰ノイズまたは過度に滑らかな潜伏者の事前観察を明確にする統一されたビューを提供し、いくつかの最近の手法を特別なケース(例えば、VA-VAE、EQ-VAE)として解釈する。
実験により、スペクトルマッチングはCelebAおよびImageNetデータセット上で優れた拡散生成をもたらすことが示唆され、以前のアプローチよりも優れていた。
最後に、スペクトルビューを表現アライメント(REPA)に拡張し、対象表現の方向性スペクトルエネルギーがREPAにとって重要であることを示す。
私たちのコードはhttps://github.com/forever208/SpectrumMatching.comで利用可能です。
関連論文リスト
- The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding [82.53463660564933]
セマンティックエンコーダは、主に抽象的意味を符号化する低周波成分をキャプチャするが、ピクセルエンコーダは微細な詳細を伝達する高周波情報を保持する。
本稿では,新しい周波数帯域変調器を用いて意味構造と画素の詳細を調和させるモデルであるUnified Autoencoding (UAE)を提案する。
論文 参考訳(メタデータ) (2025-12-22T18:59:57Z) - Delving into Latent Spectral Biasing of Video VAEs for Superior Diffusability [21.927814986478356]
本稿では,ビデオVAEラテント空間の統計的解析を行い,拡散訓練に不可欠な2つの特性を同定する。
局所相関正則化と潜在仮面再構成の2つの軽量なバックボーン非依存正規化器を提案する。
実験によると、我々のSpectral-Structured VAEは、テキストとビデオの収束の3倍のスピードアップ、ビデオ報酬の10%アップを実現し、強力なオープンソースVAEを上回っている。
論文 参考訳(メタデータ) (2025-12-05T03:20:02Z) - Uncertainty Quantification in HSI Reconstruction using Physics-Aware Diffusion Priors and Optics-Encoded Measurements [12.90606332269204]
ベイズ推論問題として高スペクトル像(HSI)再構成を定式化する。
我々は,非条件で訓練された画素レベルの拡散と後方拡散サンプリングを利用するHSDiffというフレームワークを提案する。
我々は,HSDiffが不確実性を考慮したHSI再建のための完全かつ高性能な手法であることを実証した。
論文 参考訳(メタデータ) (2025-11-23T14:43:51Z) - Latent Dirichlet Transformer VAE for Hyperspectral Unmixing with Bundled Endmembers [1.9336815376402718]
ハイパースペクトルアンミックスのための潜在ディリクレ変換器変分オートエンコーダ(LDVAE-T)を提案する。
我々のモデルは、トランスフォーマーアーキテクチャのグローバルコンテキストモデリング機能と、潜在空間に先立ってディリクレによって課される物理的に意味のある制約を組み合わせる。
我々は、Samson、Jasper Ridge、HYDICE Urbanの3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-11-21T20:15:37Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Spectrum Translation for Refinement of Image Generation (STIG) Based on
Contrastive Learning and Spectral Filter Profile [15.5188527312094]
生成した画像の周波数領域における相違を緩和する枠組みを提案する。
これは、コントラスト学習に基づく画像生成(STIG)の洗練のためのスペクトル変換によって実現される。
我々は,STIGの有効性を実証するために,8つのフェイク画像データセットと様々な最先端モデルにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-03-08T06:39:24Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。