論文の概要: Boosting Latent Diffusion Models via Disentangled Representation Alignment
- arxiv url: http://arxiv.org/abs/2601.05823v1
- Date: Fri, 09 Jan 2026 14:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.989508
- Title: Boosting Latent Diffusion Models via Disentangled Representation Alignment
- Title(参考訳): アンタングル表現アライメントによる潜時拡散モデルの構築
- Authors: John Page, Xuesong Niu, Kai Wu, Kun Gai,
- Abstract要約: 世代フレンドリーなVAEを追求するために、近年の研究では、VAEのアライメントアライメントターゲットとしてVision Foundation Modelsを活用することを検討している。
本稿では,意味的非絡み付きVAE(Send-VAE)を提案する。
提案手法では,VAEラテントを変換する非線形マッパーネットワークを用いて,属性レベルの不絡合と高レベルのセマンティクスのギャップを埋めるために,VFMと整列する。
- 参考スコア(独自算出の注目度): 23.13416934016185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.
- Abstract(参考訳): ラテント拡散モデル (LDMs) は圧縮されたラテント空間で操作することで高品質な画像を生成するが、一般的には可変オートエンコーダ (VAEs) のような画像トークンによって得られる。
世代フレンドリーなVAEを追求するために、近年の研究では、VFM(Vision Foundation Models)をVAEの表現アライメントターゲットとして活用することを検討し、LCMに広く採用されているアプローチを反映している。
これは特定の性能向上をもたらすが、VAEとLCMの両方で同じアライメントターゲットを使用することで、基本的に異なる表現要件を見落としている。
我々は、LCDは高レベルなセマンティックな概念を保ち続ける潜伏者から恩恵を受けるが、VAEはセマンティックな絡み合いに優れ、属性レベルの情報を構造化された方法でエンコードできるべきだと提唱する。
そこで本稿では,Send-VAE (Semantic disentangled VAE) を提案する。
提案手法では,VAEラテントを変換する非線形マッパーネットワークを用いて,属性レベルの不絡合と高レベルのセマンティクスのギャップを埋め,VAE学習の効果的な指導を容易にする。
本研究では,属性予測タスクの線形探索による意味的ゆがみの評価を行い,生成性能の向上と強い相関を示す。
最後に、Send-VAEを用いてフローベーストランスフォーマーSiTを訓練し、Send-VAEがトレーニングを著しく高速化し、ImageNet 256x256の分類無しで1.21と1.75の最先端のFIDを実現する実験を行った。
関連論文リスト
- Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models [45.63522160275318]
Vision Foundation Model Variational Autoencoder (VFM-VAE) は、VFMのセマンティックフォーカスとピクセルレベルの忠実さの必要性の間の固有の緊張を解決するために設計された。
我々のシステムは80エポックで2.20のgFID(w/o CFG)に達する(先行トークン化器の10倍の高速化)。
論文 参考訳(メタデータ) (2025-10-21T09:30:45Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。