論文の概要: Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging
- arxiv url: http://arxiv.org/abs/2505.19892v1
- Date: Mon, 26 May 2025 12:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.410027
- Title: Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging
- Title(参考訳): モデルマージによるマルチモーダル大言語モデルの統一とモダリティ
- Authors: Yongxian Wei, Runxi Cheng, Weike Jin, Enneng Yang, Li Shen, Lu Hou, Sinan Du, Chun Yuan, Xiaochun Cao, Dacheng Tao,
- Abstract要約: モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 103.98582374569789
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While foundation models update slowly due to resource-intensive training requirements, domain-specific models evolve between updates. Model merging aims to combine multiple expert models into a single, more capable model, thereby reducing storage and serving costs while supporting decentralized model development. Despite its potential, previous studies have primarily focused on merging visual classification models or Large Language Models (LLMs) for code and math tasks. Multimodal Large Language Models (MLLMs), which extend the capabilities of LLMs through large-scale multimodal training, have gained traction. However, there lacks a benchmark for model merging research that clearly divides the tasks for MLLM training and evaluation. In this paper, (i) we introduce the model merging benchmark for MLLMs, which includes multiple tasks such as VQA, Geometry, Chart, OCR, and Grounding, providing both LoRA and full fine-tuning models. Moreover, we explore how model merging can combine different modalities (e.g., vision-language, audio-language, and video-language models), moving toward the Omni-language model. (ii) We implement 10 model merging algorithms on the benchmark. Furthermore, we propose a novel method that removes noise from task vectors and robustly optimizes the merged vector based on a loss defined over task vector interactions, achieving an average performance gain of 2.48%. (iii) We find that model merging offers a promising way for building improved MLLMs without requiring data training. Our results also demonstrate that the complementarity among multiple modalities outperforms individual modalities.
- Abstract(参考訳): ファンデーションモデルはリソース集約的なトレーニング要求のためにゆっくりと更新されるが、ドメイン固有のモデルは更新の間に進化する。
モデルマージは、複数のエキスパートモデルを単一のより有能なモデルに組み合わせることを目的としており、これにより、分散モデル開発をサポートしながら、ストレージとサービスコストを削減できる。
その可能性にもかかわらず、以前の研究では主に、コードと数学のタスクのための視覚分類モデルやLarge Language Models (LLMs)を統合することに焦点を当てていた。
大規模なマルチモーダルトレーニングを通じてLLMの能力を拡張したMLLM(Multimodal Large Language Models)が注目を集めている。
しかし、MLLMのトレーニングと評価のタスクを明確に分割するモデルマージ研究のベンチマークが欠けている。
本項で述べる。
i)VQA,幾何,チャート,OCR,グラウンドなど複数のタスクを含むMLLMのモデルマージベンチマークを導入し,LoRAモデルとフル微調整モデルの両方を提供する。
さらに,Omni言語モデルに向けて,モデルマージが様々なモダリティ(例えば,視覚言語,音声言語,ビデオ言語モデル)を組み合わせる方法について検討する。
(ii)ベンチマークで10種類のモデルマージアルゴリズムを実装した。
さらに,タスクベクトル間の相互作用で定義された損失に基づいて,タスクベクトルからノイズを除去し,マージベクトルを強固に最適化する手法を提案する。
3)モデルマージはデータトレーニングを必要とせずにMLLMを改良するための有望な方法であることがわかった。
また,複数のモダリティ間の相補性が個々のモダリティより優れていることを示す。
関連論文リスト
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Spindle: Efficient Distributed Training of Multi-Task Large Models via Wavefront Scheduling [35.06717005729781]
Spindleは、マルチタスク(MT)マルチモーダル(MM)モデルのウェーブフロントスケジューリングによるリソース効率のトレーニングに適した、新しいトレーニングシステムである。
実験では、スピンドルの性能と効率が向上し、スピードアップ比は最先端のトレーニングシステムと比較して最大71%向上した。
論文 参考訳(メタデータ) (2024-09-05T09:10:40Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。