論文の概要: MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization
- arxiv url: http://arxiv.org/abs/2504.00999v1
- Date: Tue, 01 Apr 2025 17:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:09.219141
- Title: MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization
- Title(参考訳): MergeVQ: 切り離されたトークンのマージと量子化による視覚生成と表現の統一フレームワーク
- Authors: Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei,
- Abstract要約: ベクトル量子化(VQ)を用いたマスクド画像モデリング(MIM)は,自己教師付き事前学習と画像生成において大きな成功を収めている。
本稿では,VQに基づく生成モデルにトークンマージ手法を組み込んで,画像生成と視覚表現学習のギャップを埋めるMergeVQを提案する。
- 参考スコア(独自算出の注目度): 43.12251414524675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Modeling (MIM) with Vector Quantization (VQ) has achieved great success in both self-supervised pre-training and image generation. However, most existing methods struggle to address the trade-off in shared latent space for generation quality vs. representation learning and efficiency. To push the limits of this paradigm, we propose MergeVQ, which incorporates token merging techniques into VQ-based generative models to bridge the gap between image generation and visual representation learning in a unified architecture. During pre-training, MergeVQ decouples top-k semantics from latent space with the token merge module after self-attention blocks in the encoder for subsequent Look-up Free Quantization (LFQ) and global alignment and recovers their fine-grained details through cross-attention in the decoder for reconstruction. As for the second-stage generation, we introduce MergeAR, which performs KV Cache compression for efficient raster-order prediction. Extensive experiments on ImageNet verify that MergeVQ as an AR generative model achieves competitive performance in both visual representation learning and image generation tasks while maintaining favorable token efficiency and inference speed. The code and model will be available at https://apexgen-x.github.io/MergeVQ.
- Abstract(参考訳): ベクトル量子化(VQ)を用いたマスクド画像モデリング(MIM)は,自己教師付き事前学習と画像生成において大きな成功を収めている。
しかし、既存のほとんどの手法は、生成品質と表現学習と効率の両面において、共有潜在空間におけるトレードオフに対処するのに苦労している。
このパラダイムの限界を推し進めるために,トークンマージ技術をVQベースの生成モデルに組み込むことで,統一アーキテクチャにおける画像生成と視覚表現学習のギャップを埋めるMergeVQを提案する。
事前トレーニング中、MergeVQはエンコーダ内のLook-up Free Quantization(LFQ)とグローバルアライメントのための自己アテンションブロックの後に、潜在空間からトークンマージモジュールとトップkセマンティクスを分離し、デコーダのクロスアテンションによって細かな詳細を復元する。
第2世代については,KVキャッシュ圧縮を効率的に行うMergeARを導入し,ラスタオーダーの予測を行う。
ImageNetにおける大規模な実験により、AR生成モデルとしてのMergeVQは、良好なトークン効率と推論速度を維持しつつ、視覚表現学習と画像生成タスクの両方で競合性能を達成することが確認された。
コードとモデルはhttps://apexgen-x.github.io/MergeVQ.orgで公開される。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。
本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-12-19T17:59:54Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。