論文の概要: MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
- arxiv url: http://arxiv.org/abs/2509.16197v1
- Date: Fri, 19 Sep 2025 17:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.267811
- Title: MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
- Title(参考訳): MANZANO:ハイブリッドビジョントケナイザを用いたシンプルでスケーラブルな統一マルチモーダルモデル
- Authors: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen,
- Abstract要約: マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
- 参考スコア(独自算出の注目度): 90.72238747690972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddings for image-to-text understanding and discrete tokens for text-to-image generation within a common semantic space. A unified autoregressive LLM predicts high-level semantics in the form of text and image tokens, with an auxiliary diffusion decoder subsequently translating the image tokens into pixels. The architecture, together with a unified training recipe over understanding and generation data, enables scalable joint learning of both capabilities. Manzano achieves state-of-the-art results among unified models, and is competitive with specialist models, particularly on text-rich evaluation. Our studies show minimal task conflicts and consistent gains from scaling model size, validating our design choice of a hybrid tokenizer.
- Abstract(参考訳): 視覚的コンテンツを理解・生成できる統一多モーダル大言語モデル(LLM)は大きな可能性を秘めている。
しかしながら、既存のオープンソースモデルは、これらの機能間のパフォーマンス上のトレードオフに悩まされることが多い。
我々は、この緊張を著しく低減するシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の共有ビジョンエンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つの軽量アダプタと、共通意味空間内でテキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
アーキテクチャは、データの理解と生成に関する統一的なトレーニングレシピとともに、両方の能力のスケーラブルな共同学習を可能にします。
Manzanoは、統一モデル間で最先端の結果を達成し、特にテキストリッチな評価において、スペシャリストモデルと競合する。
我々の研究は、タスクの衝突を最小限に抑え、モデルのサイズを拡大することで一貫した利益をもたらし、ハイブリッドトークン化器の設計選択を検証している。
関連論文リスト
- Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。
自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。
Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。
主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。
テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。
画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文 参考訳(メタデータ) (2025-02-08T02:52:25Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。