論文の概要: Diffusing in the Right Space: A Systematic Study of Latent Diffusability
- arxiv url: http://arxiv.org/abs/2606.03578v1
- Date: Tue, 02 Jun 2026 12:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.003245
- Title: Diffusing in the Right Space: A Systematic Study of Latent Diffusability
- Title(参考訳): 右空間における拡散 : 潜在拡散性に関する体系的研究
- Authors: Tianxiong Zhong, Xingye Tian, Xuebo Wang, Xin Tao, Pengfei Wan,
- Abstract要約: ラテント拡散モデルは、視覚トークン化器を利用して、効率的な生成モデリングのためにラテント空間に画像を圧縮する。
我々は,多種多様な正則化戦略を持つ大量のトークン化剤の集合を訓練することにより,潜時拡散可能性の体系的研究を行う。
生成品質と連続的に相関し,実験環境にまたがる強い一般化を示す潜伏特性を同定する。
- 参考スコア(独自算出の注目度): 11.450517054285788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models leverage visual tokenizers to compress images into latent spaces for efficient generative modeling. However, better reconstruction quality of a tokenizer does not necessarily translate into better generation quality, suggesting that latent representations should be evaluated not only by fidelity but also by their diffusability. Recent studies have proposed diverse explanations for diffusion-friendly latent spaces, including semantic separability, affine equivariance, distribution uniformity, spatial structure, spectral smoothness, and manifold continuity. Yet these properties are often validated on a limited set of tokenizers, leaving it unclear which factors are most predictive of downstream generation quality and whether such conclusions hold beyond the specific settings in which they are introduced. In this work, we conduct a systematic study of latent diffusability by training a large collection of tokenizers with diverse regularization strategies, architectures, and latent configurations, and evaluating them with multiple downstream diffusion backbones. Our analysis identifies several latent properties that consistently correlate with generation quality and exhibit strong generalization across experimental settings. Beyond existing metrics, we introduce Velocity Irreducible Variance (VIV), a measure of velocity ambiguity induced by trajectory crossings. Extensive experiments show that VIV is one of the most stable predictors of generation quality.
- Abstract(参考訳): ラテント拡散モデルは、視覚トークン化器を利用して、効率的な生成モデリングのためにラテント空間に画像を圧縮する。
しかしながら、トークン化器のより良い再構成品質は、必ずしもより良い生成品質に変換されないため、潜在表現は忠実性だけでなく、その拡散性によって評価されるべきである。
近年の研究では、セマンティックセパビリティ、アフィン同値、分布均一性、空間構造、スペクトル滑らか性、多様体連続性など、拡散に優しい潜在空間について様々な説明が提案されている。
しかし、これらの特性は限定されたトークン化器で検証されることが多く、どの要因が下流生成の品質を最も予測できるのか、そしてそのような結論が導入される特定の設定を超えているのかははっきりしない。
本研究では,多種多様な正則化戦略,アーキテクチャ,潜時構成を用いて大量のトークン化剤を訓練し,複数の下流拡散バックボーンを用いてそれらを評価することにより,潜時拡散可能性の体系的研究を行う。
本分析では, 生成品質と連続的に相関し, 実験環境にまたがる強い一般化を示す潜伏特性を同定した。
既存の測定値以外にも,軌道交差による速度曖昧性の尺度であるVIV(Velocity Irreducible Variance)を導入している。
大規模な実験により、VIVは世代品質の最も安定した予測因子の1つであることが示されている。
関連論文リスト
- Probability-Conserving Flow Guidance [49.03107678763765]
Adaptive Manifold Guidance (AdaMaG)はリアリズムを改善し、幻覚を減らし、高誘導下での劣化を制御する。
画像生成ベンチマーク全体で、AdaMaGはリアリズムを改善し、幻覚を減らし、高誘導下での劣化を制御する。
論文 参考訳(メタデータ) (2026-05-19T16:34:01Z) - Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine [60.669081685261965]
拡散モデルは、顕著な品質で高次元データを生成する。
彼らのトレーニングがいかに効率的にスコア関数を学習するかは理論的には説明がつかないままである。
我々はこの原理をScore-induced Latent Diffusion (SiLD)として定式化する。
論文 参考訳(メタデータ) (2026-05-16T16:51:10Z) - Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models [22.168463445392856]
遅延拡散モデルが高忠実かつ効率的な画像生成の主流のフレームワークとして登場した。
摂動をサンプリングする堅牢性は、生成品質を決定する上で重要な役割を担っていることを示す。
本研究では,強い再構成を維持しつつ,摂動をサンプリングする潜在空間を堅牢に構築する手法を提案する。
論文 参考訳(メタデータ) (2026-03-22T06:56:12Z) - Unconditional flow-based time series generation with equivariance-regularised latent spaces [0.0]
フローベースモデルは時系列生成に成功している。
しかし、時系列生成モデルに望ましい同値性を持つ潜在表現を設計する方法は、まだ未定である。
本稿では,事前学習したオートエンコーダの簡単な正規化により,等価性を明示的に促進する潜在フローマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T11:19:33Z) - Divergence-Free Diffusion Models for Incompressible Fluid Flows [0.0]
生成拡散モデルは、教師なしおよび自己教師付き機械学習で広く利用されている。
本研究では,非圧縮性流体の数値シミュレーションへの応用について検討する。
論文 参考訳(メタデータ) (2026-01-27T08:49:26Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Mapping the Multiverse of Latent Representations [17.2089620240192]
PRESTOは、潜在表現に依存する機械学習モデルのマルチバースをマッピングするための、原則化されたフレームワークである。
我々のフレームワークは、多種多様な機械学習手法の組み合わせから生じる潜伏空間を特徴付けるために永続的ホモロジーを使用する。
論文 参考訳(メタデータ) (2024-02-02T15:54:53Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。