論文の概要: Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2603.12793v1
- Date: Fri, 13 Mar 2026 08:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.003746
- Title: Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
- Title(参考訳): Cheers: セマンティック表現からパッチの詳細を分離することで、統一されたマルチモーダル理解と生成が可能になる
- Authors: Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
- 参考スコア(独自算出の注目度): 66.53544128707817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.
- Abstract(参考訳): マルチモーダルモデリングにおける最近の最先端のトピックは、単一のモデル内で視覚的理解と生成を統合することである。
しかし、この2つのタスクはデコード方式と視覚表現のミスマッチを必要とするため、共有機能空間内で共同で最適化することは簡単ではない。
本研究では,セマンティック表現からパッチレベルの詳細を分離する統一型マルチモーダルモデルであるCheersを提案する。
Cheersには3つの重要なコンポーネントが含まれている。
一 効率的なLCM条件付けのために、画像潜時状態を意味トークンに符号化し、圧縮する統合視覚トークン化装置
(ii)テキスト生成用自己回帰復号と画像生成用拡散復号を一体化したLLMトランス
三 視覚的意味論をまず復号し、次いで視覚トークン装置から意味論的に有意な詳細残差を注入し、高周波コンテンツを洗練するカスケードフローマッチングヘッド。
人気のあるベンチマークの実験では、Cheersは視覚的理解と生成の両方において高度なUMMと一致するか、上回っている。
Cheersはまた、4倍のトークン圧縮を実現し、より効率的な高解像度の画像エンコーディングと生成を可能にしている。
特に、Cheersは人気のあるベンチマークであるGenEvalとMMBenchでTar-1.5Bよりも優れており、トレーニングコストの20%しか必要とせず、効果的で効率的な(すなわち4xトークン圧縮)統一マルチモーダルモデリングを示している。
今後の研究のために、すべてのコードとデータを公開します。
関連論文リスト
- TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models [96.41974190202642]
統一マルチモーダルモデル(UMM)は,単一のフレームワーク内でのマルチモーダル理解と生成を共同で行うことを目的としている。
本稿では、VAEエンコーダを表現エンコーダでカスケードすることで、統一された連続的な視覚表現を構築するネイティブUMMであるTUNAを提案する。
論文 参考訳(メタデータ) (2025-12-01T18:59:51Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。
主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。
テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。
画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文 参考訳(メタデータ) (2025-02-08T02:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。