論文の概要: Improving Reconstruction of Representation Autoencoder
- arxiv url: http://arxiv.org/abs/2602.08620v1
- Date: Mon, 09 Feb 2026 13:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.241422
- Title: Improving Reconstruction of Representation Autoencoder
- Title(参考訳): 表現オートエンコーダの再構築
- Authors: Siyu Liu, Chujie Qin, Hubery Yin, Qixin Yan, Zheng-Peng Duan, Chen Li, Jing Lyu, Chun-Le Guo, Chongyi Li,
- Abstract要約: 低レベル情報を欠いた意味的特徴を増強する表現オートエンコーダLV-RAEを提案する。
実験により,LV-RAEは意味的抽象化を保ちながら,再構成の忠実度を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 52.817427902597416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work leverages Vision Foundation Models as image encoders to boost the generative performance of latent diffusion models (LDMs), as their semantic feature distributions are easy to learn. However, such semantic features often lack low-level information (\eg, color and texture), leading to degraded reconstruction fidelity, which has emerged as a primary bottleneck in further scaling LDMs. To address this limitation, we propose LV-RAE, a representation autoencoder that augments semantic features with missing low-level information, enabling high-fidelity reconstruction while remaining highly aligned with the semantic distribution. We further observe that the resulting high-dimensional, information-rich latent make decoders sensitive to latent perturbations, causing severe artifacts when decoding generated latent and consequently degrading generation quality. Our analysis suggests that this sensitivity primarily stems from excessive decoder responses along directions off the data manifold. Building on these insights, we propose fine-tuning the decoder to increase its robustness and smoothing the generated latent via controlled noise injection, thereby enhancing generation quality. Experiments demonstrate that LV-RAE significantly improves reconstruction fidelity while preserving the semantic abstraction and achieving strong generative quality. Our code is available at https://github.com/modyu-liu/LVRAE.
- Abstract(参考訳): 近年の研究では、視覚基礎モデル(Vision Foundation Models)をイメージエンコーダとして活用し、潜在拡散モデル(LDM)の生成性能を向上させる。
しかし、このようなセマンティックな特徴は低レベルな情報(色やテクスチャ)を欠くことが多く、劣化した再構成の忠実さを招き、LCDのさらなるスケーリングにおいて主要なボトルネックとなっている。
この制限に対処するため,LV-RAEを提案する。LV-RAEは意味的特徴を低レベル情報で拡張し,意味的分布に高度に整合しながら高忠実度な再構成を可能にする表現オートエンコーダである。
さらに,高次元情報に富んだ潜伏型復号器は潜伏摂動に敏感になり,潜伏型復号器が生成した潜伏型復号器の劣化を招いた。
この感度はデータ多様体の方向に沿った過度なデコーダ応答に起因していると考えられる。
これらの知見に基づいてデコーダを微調整し、その堅牢性を高め、制御ノイズ注入により生成した潜水剤を滑らかにし、生成品質を向上させることを提案する。
実験により,LV-RAEは意味的抽象化を保ち,高い生成品質を達成しつつ,再現性を大幅に向上することが示された。
私たちのコードはhttps://github.com/modyu-liu/LVRAEで利用可能です。
関連論文リスト
- DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。