論文の概要: Growing Visual Generative Capacity for Pre-Trained MLLMs
- arxiv url: http://arxiv.org/abs/2510.01546v1
- Date: Thu, 02 Oct 2025 00:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.924159
- Title: Growing Visual Generative Capacity for Pre-Trained MLLMs
- Title(参考訳): 事前学習MLLMのための視覚生成能力の育成
- Authors: Hanyu Wang, Jiaming Han, Ziyan Yang, Qi Zhao, Shanchuan Lin, Xiangyu Yue, Abhinav Shrivastava, Zhenheng Yang, Hao Chen,
- Abstract要約: Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
- 参考スコア(独自算出の注目度): 60.826355079902505
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) extend the success of language models to visual understanding, and recent efforts have sought to build unified MLLMs that support both understanding and generation. However, constructing such models remains challenging: hybrid approaches combine continuous embeddings with diffusion or flow-based objectives, producing high-quality images but breaking the autoregressive paradigm, while pure autoregressive approaches unify text and image prediction over discrete visual tokens but often face trade-offs between semantic alignment and pixel-level fidelity. In this work, we present Bridge, a pure autoregressive unified MLLM that augments pre-trained visual understanding models with generative ability through a Mixture-of-Transformers architecture, enabling both image understanding and generation within a single next-token prediction framework. To further improve visual generation fidelity, we propose a semantic-to-pixel discrete representation that integrates compact semantic tokens with fine-grained pixel tokens, achieving strong language alignment and precise description of visual details with only a 7.9% increase in sequence length. Extensive experiments across diverse multimodal benchmarks demonstrate that Bridge achieves competitive or superior results in both understanding and generation benchmarks, while requiring less training data and reduced training time compared to prior unified MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、言語モデルの成功を視覚的理解にまで拡張し、近年の取り組みは、理解と生成の両方をサポートする統一MLLMの構築を目指している。
ハイブリッドアプローチは、連続的な埋め込みと拡散やフローベースの目的を組み合わせ、高品質な画像を生成するが、自己回帰的パラダイムを破る一方、純粋な自己回帰アプローチは、個別の視覚トークンよりもテキストとイメージを統一するが、セマンティックアライメントとピクセルレベルの忠実さのトレードオフに直面することが多い。
本研究では,Mixture-of-Transformersアーキテクチャを用いて,事前学習した視覚的理解モデルを拡張し,画像理解と生成を1つの次世代予測フレームワーク内で実現する,純粋自己回帰統合MLLMであるBridgeを提案する。
画像生成の忠実度をさらに向上するために,コンパクトなセマンティックトークンと微細なピクセルトークンを統合したセマンティック・ツー・ピクセルの離散表現を提案する。
多様なマルチモーダルベンチマークに対する広範囲な実験により、ブリッジは理解と生成のベンチマークにおいて、競争力または優れた結果を達成する一方で、トレーニングデータが少なく、以前の統合MLLMと比較してトレーニング時間が短縮されることを示した。
関連論文リスト
- Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again [45.74833463136701]
我々は,セマンティック・イメージ・トークンーザ,言語と画像の両方に対する統一自己回帰モデル,X-Omniと呼ばれる画像生成のためのオフライン拡散デコーダを開発する。
X-Omniは、7B言語モデルを用いて画像生成タスクにおける最先端のパフォーマンスを達成し、高い美的品質の画像を生成できると同時に、指示に従って長いテキストを描画する強力な能力を示す。
論文 参考訳(メタデータ) (2025-07-29T17:59:04Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。