論文の概要: ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement
- arxiv url: http://arxiv.org/abs/2504.01934v2
- Date: Thu, 03 Apr 2025 16:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:51:12.749455
- Title: ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement
- Title(参考訳): ILLUME+:デュアル視覚化と拡散リファインメントによる統一MLLMのイルミネーション
- Authors: Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu,
- Abstract要約: 既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
- 参考スコア(独自算出の注目度): 68.05833403672274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ILLUME+ that leverages dual visual tokenization and a diffusion decoder to improve both deep semantic understanding and high-fidelity image generation. Existing unified models have struggled to simultaneously handle the three fundamental capabilities in a unified model: understanding, generation, and editing. Models like Chameleon and EMU3 utilize VQGAN for image discretization, due to the lack of deep semantic interaction, they lag behind specialist models like LLaVA in visual understanding tasks. To mitigate this, LaViT and ILLUME employ semantic encoders for tokenization, but they struggle with image editing due to poor texture preservation. Meanwhile, Janus series decouples the input and output image representation, limiting their abilities to seamlessly handle interleaved image-text understanding and generation. In contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which preserves both fine-grained textures and text-aligned semantics while enabling a coarse-to-fine image representation strategy for multimodal understanding and generation. Additionally, we employ a diffusion model as the image detokenizer for enhanced generation quality and efficient super-resolution. ILLUME+ follows a continuous-input, discrete-output scheme within the unified MLLM and adopts a progressive training procedure that supports dynamic resolution across the vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible and efficient context-aware image editing and generation across diverse tasks. ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs and specialized models across multimodal understanding, generation, and editing benchmarks. With its strong performance, ILLUME+ provides a scalable and versatile foundation for future multimodal applications. Project Page: https://illume-unified-mllm.github.io/.
- Abstract(参考訳): 本稿では,2つの視覚的トークン化と拡散デコーダを利用するILLUME+について,深い意味理解と高忠実度画像生成の両方を改善する。
既存の統一モデルは、理解、生成、編集という3つの基本的な機能を同時に扱うのに苦労している。
ChameleonやEMU3のようなモデルは、画像の識別にVQGANを使用している。
これを軽減するため、LaViTとILLUMEはトークン化にセマンティックエンコーダを使用しているが、テクスチャの保存が悪いため画像編集に苦労している。
一方、Janusシリーズは入力と出力の画像表現を分離し、インターリーブされた画像テキストの理解と生成をシームレスに扱う能力を制限する。
これとは対照的に、ILLUME+は統合されたデュアルビジュアルトークンであるDualViTokを導入し、細粒度テクスチャとテキスト整列セマンティクスの両方を保存し、マルチモーダル理解と生成のための粗い画像表現戦略を可能にした。
さらに、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
ILLUME+は、統合MLLM内の連続的なインプット、離散出力スキームに従い、視覚トークン化器、MLLM、拡散デコーダ間の動的解決をサポートするプログレッシブトレーニング手順を採用する。
この設計により、様々なタスクにまたがるフレキシブルで効率的なコンテキスト対応の画像編集と生成が可能になる。
ILLUME+(3B)は、既存の統合MLLMと、マルチモーダル理解、生成、編集ベンチマークをまたいだ特殊なモデルとの競合性能を示す。
その強力なパフォーマンスにより、ILLUME+は将来のマルチモーダルアプリケーションのためのスケーラブルで汎用的な基盤を提供する。
プロジェクトページ: https://illume-unified-mllm.github.io/
関連論文リスト
- Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing [7.278180096265984]
Nexus-Genは,多モーダル大言語モデルの言語推論能力を,拡散モデルの画像合成能力と相乗化する統一モデルである。
本稿では, 連続埋め込みではなく, 位置埋め込み型特殊トークンで入力シーケンスをプリフィルする自己回帰方式を提案する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy [14.703591553247948]
ARMORは、既存のマルチモーダルな大規模言語モデルを微調整することで、理解と生成の両方を達成するフレームワークである。
ARMORは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズムの3つの観点から既存のMLLMを拡張している。
実験により、ARMORは既存のMLLMをUniMにアップグレードし、将来性のある画像生成機能を持つことを示した。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。