論文の概要: VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
- arxiv url: http://arxiv.org/abs/2511.23386v1
- Date: Fri, 28 Nov 2025 17:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.998564
- Title: VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
- Title(参考訳): VQRAE:マルチモーダル理解・生成・再構築のための表現量子化オートエンコーダ
- Authors: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan,
- Abstract要約: VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
- 参考スコア(独自算出の注目度): 83.50898344094153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.
- Abstract(参考訳): 単一トークン化器におけるマルチモーダル理解、生成、再構成表現の統合は、統一モデルを構築する上で重要な課題である。
従来の研究では、それぞれが理解と生成のために別々のエンコーダを利用する、あるいは対照的な損失を伴う意味表現と低レベルの特徴のバランスをとる、二重エンコーダパラダイムでこの問題に対処しようと試みていた。
本稿では、画像理解のための連続的意味的特徴と、統一トークン化器内での視覚生成のための離散トークンを生成するために、統一表現の最初の探索を開拓したRepresentation AutoEncodersのベクトル量子化バージョンであるVQRAEを提案する。
具体的には、対称なViTデコーダを用いた事前学習された視覚基盤モデルを構築し、まず、エンコーダを凍結し、画素再構成の目的を持った高次元のセマンティックVQコードブックを学習し、それから自己蒸留制約でエンコーダを共同最適化する2段階のトレーニング戦略を採用する。
この設計により、マルチモーダル理解能力、生成に相応しい離散トークン、きめ細かい再構築能力を維持するために、無視可能な意味情報を可能にする。
また、画像再構成における従来の低次元コードブックの慣習とは対照的に、高次元コードブックに依存する意味エンコーダの量子化における興味深い性質を同定する。
セマンティックVQコードブックは、100%利用率を1536の次元で達成することができる。
VQRAEは、視覚的理解、生成、再構成のいくつかのベンチマークにおいて、その独特なメリットのために自己回帰パラダイムにおける有望なスケーリング特性を備えた競争性能を示す。
関連論文リスト
- Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Dual Codebook VQ: Enhanced Image Reconstruction with Reduced Codebook Size [0.0]
ベクトル量子化(VQ)技術は、コードブック利用における課題に直面し、画像モデリングにおける再構成忠実度を制限する。
本稿では,表現を補完的なグローバルコンポーネントとローカルコンポーネントに分割することで,この制限を効果的に解決するDual Codebookメカニズムを提案する。
提案手法は,様々な画像領域,特にシーンや顔の再構成作業において優れたFID改善を実現する。
論文 参考訳(メタデータ) (2025-03-13T19:31:18Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。