論文の概要: CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2405.05949v1
- Date: Thu, 9 May 2024 17:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 12:33:18.758985
- Title: CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
- Title(参考訳): CuMo: マルチモーダルLLMのスケーリング
- Authors: Jiachen Li, Xinyao Wang, Sijie Zhu, Chia-Wen Kuo, Lu Xu, Fan Chen, Jitesh Jain, Humphrey Shi, Longyin Wen,
- Abstract要約: CuMoは、より小さなモデルと同様の推論コストを維持しながら、トレーニング中のモデルのスケーラビリティを改善します。
CuMoは視覚エンコーダとコネクタの両方にスパースゲートのMixture-of-Expertsブロックを組み込んでいる。
CuMoのコードとモデルの重み付けはhttps://github.com/SHI-Labs/CuMoでオープンソース化されている。
- 参考スコア(独自算出の注目度): 41.80218225636109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (LLMs) have focused primarily on scaling by increasing text-image pair data and enhancing LLMs to improve performance on multimodal tasks. However, these scaling approaches are computationally expensive and overlook the significance of improving model capabilities from the vision side. Inspired by the successful applications of Mixture-of-Experts (MoE) in LLMs, which improves model scalability during training while keeping inference costs similar to those of smaller models, we propose CuMo. CuMo incorporates Co-upcycled Top-K sparsely-gated Mixture-of-experts blocks into both the vision encoder and the MLP connector, thereby enhancing the multimodal LLMs with minimal additional activated parameters during inference. CuMo first pre-trains the MLP blocks and then initializes each expert in the MoE block from the pre-trained MLP block during the visual instruction tuning stage. Auxiliary losses are used to ensure a balanced loading of experts. CuMo outperforms state-of-the-art multimodal LLMs across various VQA and visual-instruction-following benchmarks using models within each model size group, all while training exclusively on open-sourced datasets. The code and model weights for CuMo are open-sourced at https://github.com/SHI-Labs/CuMo.
- Abstract(参考訳): マルチモーダル大規模言語モデル(LLM)の最近の進歩は、主にテキストイメージペアデータの増加と、マルチモーダルタスクの性能向上のためのLLMの改善に焦点を当てている。
しかし、これらのスケーリングアプローチは計算コストが高く、ビジョン側からモデル機能を改善することの重要性を見落としている。
LLMにおけるMixture-of-Experts (MoE) の応用に触発され、より小さなモデルと同様の推論コストを維持しながら、トレーニング中のモデルのスケーラビリティを改善したCuMoを提案する。
CuMo は視覚エンコーダと MLP コネクタの両方に、コップサイクルされたTop-K Sparsely-gated Mixture-of-experts ブロックを組み込み、推論中に最小のアクティベートパラメータでマルチモーダル LLM を強化する。
CuMo はまず MLP ブロックを事前訓練し、その後、視覚的インストラクションチューニングの段階で、事前訓練された MLP ブロックから MoE ブロックの各専門家を初期化する。
補助的損失は専門家のバランスの取れた負荷を保証するために使用される。
CuMoは、さまざまなVQAにわたる最先端のマルチモーダルLLMと、各モデルサイズグループ内のモデルを使用して視覚的インストラクションフォローベンチマークを上回り、オープンソースデータセットのみをトレーニングする。
CuMoのコードとモデルの重み付けはhttps://github.com/SHI-Labs/CuMoでオープンソース化されている。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。