論文の概要: InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
- arxiv url: http://arxiv.org/abs/2603.09877v1
- Date: Tue, 10 Mar 2026 16:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.457253
- Title: InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
- Title(参考訳): InternVL-U:理解・推論・生成・編集のための統一マルチモーダルモデルの民主化
- Authors: Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang,
- Abstract要約: InternVL-Uは、マルチモーダル理解と推論機能を民主化する軽量な4BパラメータUMMである。
MLLM(Multimodal Large Language Model)と特殊なMMDiTベースのビジュアルジェネレーションヘッドを統合している。
BAGEL (14B) など,さまざまな生成タスクや編集タスクにおいて,3倍以上のスケールで統一ベースラインモデルを上回るパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 87.5130783098133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models (UMMs) that integrate understanding, reasoning, generation, and editing face inherent trade-offs between maintaining strong semantic comprehension and acquiring powerful generation capabilities. In this report, we present InternVL-U, a lightweight 4B-parameter UMM that democratizes these capabilities within a unified framework. Guided by the principles of unified contextual modeling and modality-specific modular design with decoupled visual representations, InternVL-U integrates a state-of-the-art Multimodal Large Language Model (MLLM) with a specialized MMDiT-based visual generation head. To further bridge the gap between aesthetic generation and high-level intelligence, we construct a comprehensive data synthesis pipeline targeting high-semantic-density tasks, such as text rendering and scientific reasoning, under a reasoning-centric paradigm that leverages Chain-of-Thought (CoT) to better align abstract user intent with fine-grained visual generation details. Extensive experiments demonstrate that InternVL-U achieves a superior performance - efficiency balance. Despite using only 4B parameters, it consistently outperforms unified baseline models with over 3x larger scales such as BAGEL (14B) on various generation and editing tasks, while retaining strong multimodal understanding and reasoning capabilities.
- Abstract(参考訳): 理解、推論、生成、編集を統合する統一マルチモーダルモデル(UMM)は、強力なセマンティック理解の維持と強力な生成能力の獲得の間に固有のトレードオフがある。
本稿では,これらの機能を統一されたフレームワーク内で民主化する軽量な4BパラメータUMMであるInternVL-Uを提案する。
InternVL-Uは、コンテキストモデリングと視覚表現を分離したモジュラー設計の原則によって導かれ、最先端のマルチモーダル言語モデル(MLLM)と特殊なMMDiTベースの視覚生成ヘッドを統合している。
美的生成と高レベルのインテリジェンスとのギャップをさらに埋めるため,我々は,テキストレンダリングや科学的推論といった高意味性タスクを対象とする包括的データ合成パイプラインを構築し,CoT(Chain-of-Thought)を利用した推論中心のパラダイムを用いて,抽象的なユーザ意図と詳細な視覚的生成の詳細の整合性を向上する。
大規模な実験により、InternVL-Uは優れた性能、すなわち効率バランスを達成することが示された。
4Bパラメータしか使用していないにもかかわらず、BAGEL (14B) など3倍以上のスケールの統一ベースラインモデルでは、様々な生成タスクや編集タスクにおいて、強力なマルチモーダル理解と推論能力を維持しながら、一貫してパフォーマンスが向上している。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - MindGPT-4ov: An Enhanced MLLM via a Multi-Stage Post-Training Paradigm [25.7631608456086]
MindGPT-4ovは、データ生産、モデルトレーニング、効率的なデプロイメントにまたがる一般的なポストトレーニングパラダイムである。
複数のベンチマークにまたがって、最先端のパフォーマンスを低コストで達成する。
MindGPT-4ovは垂直ドメインタスクにおいて優れたユーザエクスペリエンスを示す。
論文 参考訳(メタデータ) (2025-12-02T16:04:11Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。