論文の概要: Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.12566v1
- Date: Wed, 16 Jul 2025 18:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.24275
- Title: Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
- Title(参考訳): Mono-InternVL-1.5: より安全で高速なモノリシックなマルチモーダル言語モデルを目指して
- Authors: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai,
- Abstract要約: 本稿では,モノリシックなマルチモーダル大言語モデル(MLLM)について述べる。
モノリシックMLLMの既存の構造と事前学習戦略は不安定な最適化と破滅的な忘れ込みに悩まされることが多い。
これらの課題に対処するために、我々は、新しい視覚パラメータ空間を事前訓練されたLLMに組み込むことで、デルタチューニングによるノイズの多いデータから視覚知識の安定した学習を可能にする。
- 参考スコア(独自算出の注目度): 70.59376970630387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on monolithic Multimodal Large Language Models (MLLMs), which integrate visual encoding and language decoding into a single model. Existing structures and pre-training strategies for monolithic MLLMs often suffer from unstable optimization and catastrophic forgetting. To address these challenges, our key idea is to embed a new visual parameter space into a pre-trained LLM, enabling stable learning of visual knowledge from noisy data via delta tuning. Based on this principle, we first introduce Mono-InternVL, an advanced monolithic MLLM that incorporates a set of visual experts through a multimodal mixture-of-experts architecture. In addition, we design an innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize its visual capabilities via progressive learning. Mono-InternVL achieves competitive performance against existing MLLMs but also leads to relatively expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++ introduces additional visual attention experts to Mono-InternVL-1.5 and re-organizes the pre-training process in an efficient manner. During inference, it includes a fused CUDA kernel to speed up its MoE operations. With these designs, Mono-InternVL-1.5 significantly reduces training and inference costs, while still maintaining competitive performance with Mono-InternVL. To evaluate our approach, we conduct extensive experiments across 15 benchmarks. Results demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves similar multimodal performance while reducing first-token latency by up to 69%. Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.
- Abstract(参考訳): 本稿では,視覚的エンコーディングと言語復号を単一モデルに統合したモノリシックなマルチモーダル言語モデル(MLLM)について述べる。
モノリシックMLLMの既存の構造と事前学習戦略は不安定な最適化と破滅的な忘れ込みに悩まされることが多い。
これらの課題に対処するために、我々は、新しい視覚パラメータ空間を事前訓練されたLLMに組み込むことで、デルタチューニングによるノイズの多いデータから視覚知識の安定した学習を可能にする。
この原理に基づいて、我々はまずMono-InternVLを紹介した。Mono-InternVLは高度なモノリシックなMLLMで、マルチモーダル・オブ・エキスパート・アーキテクチャを通じて視覚専門家の集合を組み込む。
さらに,Mono-InternVLのための革新的な内因性視覚前訓練(EViP)を設計し,その視覚能力の最大化を図る。
Mono-InternVLは既存のMLLMと競合する性能を実現するが、データコストも比較的高い。
そこで我々は,改良されたEViP(EViP++)を備えた安価で強力なモノリシックMLLMであるMono-InternVL-1.5を提案する。
EViP++はMono-InternVL-1.5に新たな視覚的注意の専門家を導入し、トレーニング前のプロセスを効率的に再編成する。
推論中は、CUDAカーネルが融合してMoE操作を高速化する。
これらの設計により、Mono-InternVL-1.5は、Mono-InternVLとの競合性能を維持しながら、トレーニングと推論のコストを大幅に削減する。
提案手法を評価するため,15ベンチマークにまたがる広範囲な実験を行った。
結果として、Mono-InternVLは、OCRBench上のEmu3よりも15のベンチマークのうち12のベンチマークで既存のモノリシックMLLMよりも優れていることが示されている。
InternVL-1.5と比べ、Mono-InternVL-1.5は同様のマルチモーダル性能を実現し、初歩遅延を最大69%削減した。
コードとモデルはhttps://github.com/OpenGVLab/Mono-InternVLで公開されている。
関連論文リスト
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models [18.489240454283834]
MLLMのためのLVP(Language-Guided Vision Token Pruning)を提案する。
LVPruningは、言語トークンとの相互作用に基づいて視覚トークンの重要性を計算するために、クロスアテンションモジュールを使用している。
実験により、LLaVA-1.5の中間層によって、LVPruningは視覚トークンの90%を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2025-01-23T13:31:51Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。