Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
Abstractの概要
Tuna-2は、VAEや表現エンコーダなどの事前学習済みビジョンエンコーダに依存せず、ピクセル空間で直接視覚理解と視覚生成の両方を行うネイティブ統合マルチモーダルモデルである。代わりに、シンプルなパッチ埋め込み層と単一のTransformerデコーダを用いて、画像トークンとテキストトークンを共同処理する。本論文では、高次元ピクセル空間でのエンドツーエンド学習を安定化させ、よりロバストな表現を促進するためのマスキングベースの視覚特徴学習スキームも導入している。マルチモーダル理解、テキストから画像への生成、画像編集、画像再構成のベンチマークで評価が行われ、エンコーダフリーのピクセル空間アプローチが、7Bスケールのネイティブ統合マルチモーダルモデルの中で理解タスクにおいて最先端の性能を達成し、生成タスクにおいても競争力のある結果を示した。
新規性
主な新規性は、VAEと表現エンコーダの両方を除去し、単一のTransformerデコーダ内で直接ピクセルパッチ埋め込みに置き換えたエンコーダフリーの統合マルチモーダルアーキテクチャである。また、ピクセル空間での統合マルチモーダル学習に特化したマスキングベースの学習戦略を提案し、エンコーダベースのピクセル空間バリアント(Tuna-R)との制御された比較を行い、エンコーダフリー設計が十分な事前学習後に理解タスクでエンコーダベースのバリアントを上回る一方、初期学習では収束が遅いことを明らかにしている。
成果
マルチモーダル理解ベンチマークにおいて、Tuna-2は7Bスケールのネイティブ統合モデルの中で最先端の結果を達成し、OCRBench、CountBench、VisuLogicなどの細粒度・ピクセル中心のタスクで特に顕著な改善を示した。生成ベンチマーク(GenEval全体0.87、DPG-Bench全体86.54)では、Tuna-2は最先端の統合モデルと競争力を維持しており、Tuna-Rがベンチマークスコアではわずかに優位であるが、LLM審査員評価ではTuna-2が多様性で顕著に好まれた(GPT-5.4で48.4%、Claude Opus 4.7で41.9%)。画像再構成結果は統合トークナイザの中で第1位(rFID 0.15、PSNR 32.80、SSIM 0.93)であり、専門的トークナイザに迫る性能を示した。
論文の注目点
- Tuna-2はVAEおよび表現エンコーダの両方のモジュール型ビジョンエンコーダを完全に除去し、パッチ埋め込みと統合Transformerデコーダを用いて生のピクセルから直接マルチモーダル理解と生成を行い、7Bスケールのネイティブ統合マルチモーダルモデルの中で理解ベンチマークにおいて最先端の結果を達成した。
- 事前学習の最後の40%に適用されるマスキングベースの視覚特徴学習スキームは、エンコーダフリー(Tuna-2)およびエンコーダベース(Tuna-R)の両バリアントで理解と生成の性能を向上させ、特にTuna-2がこの戦略からより大きな恩恵を受けた。
- Tuna-2とTuna-Rの制御された比較により、エンコーダベースのバリアントは事前学習済みの意味的事前知識により初期の事前学習で収束が速いが、エンコーダフリーのTuna-2はスケールにおいて最終的に理解タスクでそれを上回り、生成性能は両バリアント間で競争力を維持していることが明らかになった。
参考リンク
- arXiv: https://arxiv.org/abs/2604.24763v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.24763v1
- Hugging Face Papers: https://huggingface.co/papers/2604.24763
- Project: https://tuna-ai.org/tuna-2