論文の概要: One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
- arxiv url: http://arxiv.org/abs/2512.07829v2
- Date: Tue, 16 Dec 2025 18:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.90156
- Title: One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation
- Title(参考訳): イメージ生成のための事前訓練されたビジュアルエンコーダに適応する1つのレイヤー
- Authors: Yuan Gao, Chen Chen, Tianrong Chen, Jiatao Gu,
- Abstract要約: Feature Auto-Encoder (FAE) は、学習済みの視覚表現を、単一の注意層としてほとんど使用せずに生成に適した低次元の潜伏子に適応させる。
FAEはクラス条件とテキスト・ツー・イメージのベンチマークで高いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 33.56782043207013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual generative models (e.g., diffusion models) typically operate in compressed latent spaces to balance training efficiency and sample quality. In parallel, there has been growing interest in leveraging high-quality pre-trained visual representations, either by aligning them inside VAEs or directly within the generative model. However, adapting such representations remains challenging due to fundamental mismatches between understanding-oriented features and generation-friendly latent spaces. Representation encoders benefit from high-dimensional latents that capture diverse hypotheses for masked regions, whereas generative models favor low-dimensional latents that must faithfully preserve injected noise. This discrepancy has led prior work to rely on complex objectives and architectures. In this work, we propose FAE (Feature Auto-Encoder), a simple yet effective framework that adapts pre-trained visual representations into low-dimensional latents suitable for generation using as little as a single attention layer, while retaining sufficient information for both reconstruction and understanding. The key is to couple two separate deep decoders: one trained to reconstruct the original feature space, and a second that takes the reconstructed features as input for image generation. FAE is generic; it can be instantiated with a variety of self-supervised encoders (e.g., DINO, SigLIP) and plugged into two distinct generative families: diffusion models and normalizing flows. Across class-conditional and text-to-image benchmarks, FAE achieves strong performance. For example, on ImageNet 256x256, our diffusion model with CFG attains a near state-of-the-art FID of 1.29 (800 epochs) and 1.70 (80 epochs). Without CFG, FAE reaches the state-of-the-art FID of 1.48 (800 epochs) and 2.08 (80 epochs), demonstrating both high quality and fast learning.
- Abstract(参考訳): 視覚生成モデル(例えば拡散モデル)は、通常、訓練効率とサンプル品質のバランスをとるために圧縮された潜在空間で機能する。
並行して、高品質な事前訓練された視覚表現を活用することへの関心が高まっている。
しかし、そのような表現の適応は、理解指向特徴と世代フレンドリな潜在空間の根本的なミスマッチのため、依然として困難である。
表現エンコーダはマスキング領域の様々な仮説を捉えた高次元の潜伏音の恩恵を受ける一方、生成モデルは射出音を忠実に保存しなければならない低次元の潜伏音を好んでいる。
この相違により、以前の作業は複雑な目的やアーキテクチャに依存していた。
本研究では,FAE(Feature Auto-Encoder)を提案する。FAE(Feature Auto-Encoder)は,学習済みの視覚表現を,単一の注意層としてのみ使用して生成に適した低次元の潜伏層に適応し,再構築と理解の両方に十分な情報を保持する,シンプルで効果的なフレームワークである。
鍵となるのは、2つの分離されたディープデコーダである。1つは元の特徴空間を再構築するよう訓練され、もう1つは再構成された特徴を画像生成の入力として取り込む。
FAEは汎用的であり、様々な自己制御エンコーダ(例えばDINO、SigLIP)でインスタンス化でき、拡散モデルと正規化フローという2つの異なる生成系にプラグインされる。
FAEは、クラス条件とテキスト・ツー・イメージのベンチマーク全体にわたって、強力なパフォーマンスを実現している。
例えば、ImageNet 256x256では、CFGによる拡散モデルにより、1.29 (800 epochs)と1.70 (80 epochs)の最先端のFIDが得られる。
CFGがなければ、FAEは1.48 (800 epochs)と2.08 (80 epochs)の最先端のFIDに達し、高品質かつ高速な学習を実証している。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。