論文の概要: JLT: Clean-Latent Prediction in Latent Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.27102v2
- Date: Wed, 27 May 2026 13:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.160428
- Title: JLT: Clean-Latent Prediction in Latent Diffusion Transformers
- Title(参考訳): JLT:潜時拡散変圧器のクリーン潜時予測
- Authors: Funing Fu, Tenghui Wang, Guanyu Zhou, Junyong Cen, Qichao Zhu,
- Abstract要約: クリーンポイントの後退は、周囲の雑音量を予測するよりも、低次元構造を効果的に活用することができる。
凍結FLUX.2VAE符号上の130M遅延拡散変換器であるJLTを導入し、クリーン遅延予測と一致速度予測DiTを比較した。
- 参考スコア(独自算出の注目度): 0.8627582973987739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.
- Abstract(参考訳): クリーンデータ予測との整合性は, 環境騒音量の予測よりも, 低次元構造を効果的に活用できることを示唆している。
画像が学習された潜在空間にマッピングされた後も,この原理が有用かどうかを問う。
凍結FLUX.2上の130M遅延拡散変圧器JLTを紹介する。
VAEコードとクリーン遅延予測を、同じ表現、バックボーン、トレーニング設定の下で一致した速度予測DiTと比較する。
3つの変数 x, エプシロン, v は、固定された汚損時間に対して線形変換可能であるが、局所ガウス解析により、速度回帰が等方的目標共分散床を継承し、低分散遅延方向を増幅し、クリーンな予測はそれらを減衰させることを示した。
ImageNet 256 x 256 では、JLT-B/1 は FID-50K 2.50 を無分類で取得する。
これらの結果は、潜在拡散の予測対象は、交換可能な代数的パラメータ化ではなく、表現依存的な幾何学的選択であることを示している。
関連論文リスト
- Factorization-Error-Free Discrete Diffusion Language Model via Speculative Decoding [17.46155287289949]
本稿では,独立なクリーンコンディショニング予測を,トークン依存をよりよく保存するために,前置詞の正確な因数分解に置き換えるFacterization-Error-Free Discrete Language Diffusion Modeling (FeF-DLLM)を提案する。
GSM8K,MATH,HumanEval,MBPPによる実験により,平均5.04ポイントの精度向上と平均推定速度の3.86倍の精度向上が得られた。
論文 参考訳(メタデータ) (2026-05-14T03:15:25Z) - Non-Asymptotic Analysis of Efficiency in Conformalized Regression [17.873283539065387]
我々は,SGDを用いてトレーニングされた共形量子化および中央値回帰のためのオラクル間隔長からの予測セット長のずれに関する非漸近的境界を確立する。
その結果, 収束速度の位相遷移を$alpha$の異なる規則で同定し, 余剰予測セット長を制御するためにデータを割り当てるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:50:35Z) - A Novel Approach for Estimating Largest Lyapunov Exponents in One-Dimensional Chaotic Time Series Using Machine Learning [0.0]
機械学習を用いて1次元カオス時系列から最大のリアプノフ指数(LLE)を推定するためのデータ駆動手法を提案する。
予測器はサンプル外マルチ水平予測を生成するように訓練され、LLEは地平線を横切る幾何平均予測誤差(GMAE)の指数的成長から推定される。
我々は,4つの標準1次元地図-ロジスティック,正弦,立方体,チェビシェフが達成するR2pos > 0.99のアプローチを,M = 450と短い列の基準LLE曲線に対して検証した。
論文 参考訳(メタデータ) (2025-07-07T10:53:02Z) - Gaussian Mixture Flow Matching Models [63.092956669059824]
拡散モデルは正規分布をガウス平均として近似し,その平均を推定する一方,フローマッチングモデルはガウス平均をフロー速度としてパラメータ化する。
離散化誤差による数段階のサンプリングでは性能が低下し、分類器フリーガイダンス(CFG)では過飽和色が生じる傾向にある。
本稿では,CFGの過飽和問題を緩和し,画像生成品質を向上する新しい確率的ガイダンス手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:42Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。