論文の概要: Improved Baselines with Representation Autoencoders
- arxiv url: http://arxiv.org/abs/2605.18324v1
- Date: Mon, 18 May 2026 12:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.609469
- Title: Improved Baselines with Representation Autoencoders
- Title(参考訳): 表現オートエンコーダによるベースラインの改良
- Authors: Jaskirat Singh, Boyang Zheng, Zongze Wu, Richard Zhang, Eli Shechtman, Saining Xie,
- Abstract要約: 表現オートエンコーダ(RAE)は、従来のVAEを事前訓練された視覚エンコーダに置き換える。
RAEを単純化し、改善する3つの洞察が得られます。
RAEv2はオリジナルのRAEよりも10倍以上早く収束する。
- 参考スコア(独自算出の注目度): 61.47127824064028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation Autoencoders (RAE) replace traditional VAE with pretrained vision encoders. In this paper, we systematically investigate several design choices and find three insights which simplify and improve RAE. First, we study a generalized formulation where the representation is defined as sum of the last k encoder layers rather than solely the final layer. This simple change greatly improves reconstruction without encoder finetuning or specialized data (e.g., text, faces). Second, we study the prevalent assumption that RAE (using pretrained representation as encoder) replaces representation alignment (REPA), which distills the same representation to intermediate layers instead. Through large-scale empirical analysis, we uncover a surprising finding: RAE and REPA exhibit complementary working mechanisms, allowing the same representation to be used as both encoder and target for intermediate diffusion layers. Finally, the original RAE struggles with classifier-free guidance (CFG) and requires training a second, weaker diffusion model for AutoGuidance (AG). We show that REPA itself can be viewed as x-prediction in RAE latent space. By simply re-parameterizing the output of the DiT model, it can provide guidance for "free". Overall, RAEv2 leads to more than 10x faster convergence over the original RAE, achieving a state-of-the-art gFID of 1.06 in just 80 epochs on ImageNet-256. On FDr^k, RAEv2 achieves a state-of-the-art 2.17 at just 80 epochs compared to the previous best 3.26 (800 epochs) without any post-training. This motivates EP_FID@k (epochs to reach unguided gFID <= k) as a measure of training efficiency. RAEv2 attains an EP_FID@2 of 35 epochs, versus 177 for the original RAE. We also validate our approach across diverse settings for text-to-image generation and navigation world models, showing consistent improvements. Code is available at https://raev2.github.io.
- Abstract(参考訳): 表現オートエンコーダ(RAE)は、従来のVAEを事前訓練された視覚エンコーダに置き換える。
本稿では, 設計選択を体系的に検討し, RAEを簡素化し, 改善する3つの知見を見出す。
まず、表現が最終層だけでなく、最後の k エンコーダ層の和として定義される一般化された定式化について検討する。
この単純な変更は、エンコーダの微調整や特別なデータ(例えば、テキスト、顔)を使わずに、再構築を大幅に改善する。
第二に、RAE(エンコーダとして事前訓練された表現を使用)が表現アライメント(REPA)を置き換え、代わりに中間層に同じ表現を蒸留するという仮定が一般的である。
RAEとREPAは相補的な動作機構を示し、エンコーダと中間拡散層の両方のターゲットとして同じ表現を使用できる。
最後に、RAEは分類器フリーガイダンス (CFG) に苦慮し、AutoGuidance (AG) のための第二の弱い拡散モデルを訓練する必要がある。
我々は REPA 自体をRAE 潜在空間における x-述語とみなすことができることを示す。
DiTモデルの出力を再パラメータ化することで、"free"のガイダンスを提供することができる。
全体として、RAEv2はオリジナルのRAEよりも10倍以上早く収束し、ImageNet-256の80エポックで1.06の最先端のgFIDを実現している。
FDr^k では、RAEv2 は前回の3.26 (800 epochs) と比較してたった80 epochsで最先端の2.17 を達成する。
これはトレーニング効率の尺度としてEP_FID@k(未ガイドのgFID <= kに到達する時期)を動機付けている。
RAEv2は35エポックのEP_FID@2を獲得し、オリジナルのRAEは177である。
また、テキスト・ツー・イメージ・ジェネレーションとナビゲーション・ワールド・モデルのための多様な設定にまたがってアプローチを検証することで、一貫した改善を示す。
コードはhttps://raev2.github.io.comで入手できる。
関連論文リスト
- RAE-AR: Taming Autoregressive Models with Representation Autoencoders [61.73674018219353]
分散正規化によるトークンの単純化により、モデリングの難易度を緩和し、収束性を向上させる。
我々は、露光バイアスを軽減するために、訓練中にガウスノイズ注入を取り入れて予測を強化する。
この作業は、視覚的理解と生成的モデリングをまたいだ、より統一されたアーキテクチャの道を開く。
論文 参考訳(メタデータ) (2026-04-02T02:39:28Z) - DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。
本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-22T18:58:16Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - NVAE: A Deep Hierarchical Variational Autoencoder [102.29977384039805]
本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。
NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。
我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
論文 参考訳(メタデータ) (2020-07-08T04:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。