論文の概要: RAE-AR: Taming Autoregressive Models with Representation Autoencoders
- arxiv url: http://arxiv.org/abs/2604.01545v1
- Date: Thu, 02 Apr 2026 02:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.197117
- Title: RAE-AR: Taming Autoregressive Models with Representation Autoencoders
- Title(参考訳): RAE-AR:表現オートエンコーダを用いた自己回帰モデルモデリング
- Authors: Hu Yu, Hang Xu, Jie Huang, Zeyue Xue, Haoyang Huang, Nan Duan, Feng Zhao,
- Abstract要約: 分散正規化によるトークンの単純化により、モデリングの難易度を緩和し、収束性を向上させる。
我々は、露光バイアスを軽減するために、訓練中にガウスノイズ注入を取り入れて予測を強化する。
この作業は、視覚的理解と生成的モデリングをまたいだ、より統一されたアーキテクチャの道を開く。
- 参考スコア(独自算出の注目度): 61.73674018219353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The latent space of generative modeling is long dominated by the VAE encoder. The latents from the pretrained representation encoders (e.g., DINO, SigLIP, MAE) are previously considered inappropriate for generative modeling. Recently, RAE method lights the hope and reveals that the representation autoencoder can also achieve competitive performance as the VAE encoder. However, the integration of representation autoencoder into continuous autoregressive (AR) models, remains largely unexplored. In this work, we investigate the challenges of employing high-dimensional representation autoencoders within the AR paradigm, denoted as \textit{RAE-AR}. We focus on the unique properties of AR models and identify two primary hurdles: complex token-wise distribution modeling and the high-dimensionality amplified training-inference gap (exposure bias). To address these, we introduce token simplification via distribution normalization to ease modeling difficulty and improve convergence. Furthermore, we enhance prediction robustness by incorporating Gaussian noise injection during training to mitigate exposure bias. Our empirical results demonstrate that these modifications substantially bridge the performance gap, enabling representation autoencoder to achieve results comparable to traditional VAEs on AR models. This work paves the way for a more unified architecture across visual understanding and generative modeling.
- Abstract(参考訳): 生成モデリングの潜在空間は、長い間VAEエンコーダに支配されている。
事前訓練された表現エンコーダ(例えば、DINO、SigLIP、MAE)の潜伏剤は、以前は生成的モデリングには不適切と考えられていた。
近年,RAE方式では,表現オートエンコーダがVAEエンコーダとして競争性能を発揮できるという期待が高まっている。
しかし、表現オートエンコーダを連続自己回帰(AR)モデルに統合することは、まだほとんど解明されていない。
本研究では,ARパラダイムに高次元表現オートエンコーダを採用する際の課題について検討する。
我々は,ARモデルのユニークな特性に注目し,複雑なトークン単位の分布モデリングと,高次元で増幅されたトレーニング-推論ギャップ(露光バイアス)という2つの主要なハードルを同定する。
これらの問題に対処するために,分布正規化によるトークンの単純化を導入し,モデリングの難しさを緩和し,収束性を改善する。
さらに、露光バイアスを軽減するために、訓練中にガウスノイズ注入を導入することにより、予測ロバスト性を高める。
実験の結果,これらの変更が性能ギャップを大幅に橋渡しし,表現オートエンコーダがARモデル上での従来のVAEに匹敵する結果が得られることを示した。
この作業は、視覚的理解と生成的モデリングをまたいだ、より統一されたアーキテクチャの道を開く。
関連論文リスト
- RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing [37.46832944462102]
拡散モデルは画像生成と編集において支配的なパラダイムとなっている。
近年、事前に訓練された視覚表現モデルをトークンライザとして活用しようとする試みは、拡散特徴を表現特徴に整合させるか、凍結トークンライザとして直接表現エンコーダを再利用するかのいずれかである。
生成と編集の両方を改善する表現ベースのトークン化器であるRepresentation-Pivoted AutoEncoderを提案する。
論文 参考訳(メタデータ) (2026-03-19T17:54:43Z) - DreamVAR: Taming Reinforced Visual Autoregressive Model for High-Fidelity Subject-Driven Image Generation [108.71044040025374]
本稿では,視覚的自己回帰モデルに基づく主観的画像合成のための新しいフレームワークを提案する。
本研究では,Dreamtheが従来の拡散法よりも優れた外観保存を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-30T03:32:29Z) - Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。
本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-22T18:58:16Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [51.77917733024544]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - The Deep Generative Decoder: MAP estimation of representations improves
modeling of single-cell RNA data [0.0]
モデルパラメータと表現を直接最大後部推定(MAP)により計算する単純な生成モデルを提案する。
このアプローチの利点は、その単純さと、同等のVAEよりもはるかに小さな次元の表現を提供する能力である。
論文 参考訳(メタデータ) (2021-10-13T12:17:46Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。