論文の概要: Unified Latents (UL): How to train your latents
- arxiv url: http://arxiv.org/abs/2602.17270v1
- Date: Thu, 19 Feb 2026 11:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.988996
- Title: Unified Latents (UL): How to train your latents
- Title(参考訳): 統一潜伏者(UL):潜伏者を訓練する方法
- Authors: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans,
- Abstract要約: Unified Latents (UL) は拡散前の拡散と拡散モデルによる復号化によって共同で正規化された潜在表現を学習するためのフレームワークである。
ImageNet-512では、高速再構成(PSNR)による1.4の競合FIDを実現するとともに、安定拡散潜水訓練モデルよりもFLOPのトレーニングを少なくする。
- 参考スコア(独自算出の注目度): 28.968864642441456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.
- Abstract(参考訳): 我々は,拡散前の拡散と拡散モデルによる復号化によって共同で正規化される潜在表現を学習するためのフレームワークであるUnified Latents (UL)を提案する。
エンコーダの出力ノイズを前者の最小雑音レベルにリンクすることにより、潜伏ビットレートに厳密な上限を与える簡単な訓練目標を得る。
ImageNet-512では, 安定拡散潜水モデルよりもFLOPのトレーニングを少なくし, 高い再現性(PSNR)を有する1.4の競合FIDを実現する。
Kinetics-600では、1.3の最先端FVDを設定した。
関連論文リスト
- Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models [45.63522160275318]
Vision Foundation Model Variational Autoencoder (VFM-VAE) は、VFMのセマンティックフォーカスとピクセルレベルの忠実さの必要性の間の固有の緊張を解決するために設計された。
我々のシステムは80エポックで2.20のgFID(w/o CFG)に達する(先行トークン化器の10倍の高速化)。
論文 参考訳(メタデータ) (2025-10-21T09:30:45Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - MAN: Latent Diffusion Enhanced Multistage Anti-Noise Network for Efficient and High-Quality Low-Dose CT Image Denoising [8.912550844312177]
本稿では,高画質低線量CT画像復調作業のための遅延拡散増強型マルチステージアンチノイズネットワークMANについて紹介する。
提案手法は、知覚的に最適化されたオートエンコーダを介して圧縮された潜在空間で動作する。
本研究は,医用画像の先進的生成モデルに向けた実践的な道筋を示すものである。
論文 参考訳(メタデータ) (2025-09-28T03:13:39Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - LatentCRF: Continuous CRF for Efficient Latent Diffusion [63.994037257284205]
本稿では,ニューラルネットワーク層として実装された連続条件ランダムフィールド(CRF)モデルであるLatentCRFを紹介する。
ラテントCRFは、ラテント拡散モデルにおける潜在ベクトル間の空間的および意味的関係をモデル化する。
LDMと比較して画像品質や多様性を損なうことなく,推測効率を33%向上させる。
論文 参考訳(メタデータ) (2024-12-24T18:51:11Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Learning to Discretize Denoising Diffusion ODEs [41.50816120270017]
拡散確率モデル(英: Diffusion Probabilistic Models, DPM)は、様々な領域における競争性能を示す生成モデルである。
本稿では,サンプリングのための最適な時間離散化学習を目的とした軽量フレームワークLD3を提案する。
我々はLD3がサンプリング効率をはるかに低い計算オーバーヘッドで改善できることを解析的かつ実証的に実証した。
論文 参考訳(メタデータ) (2024-05-24T12:51:23Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。