論文の概要: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts
- arxiv url: http://arxiv.org/abs/2312.00968v1
- Date: Fri, 1 Dec 2023 23:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:06:42.683660
- Title: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts
- Title(参考訳): Omni-SMoLA:低ランクエキスパートのソフトミックスによる汎用マルチモーダルモデルの構築
- Authors: Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut
- Abstract要約: 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
- 参考スコア(独自算出の注目度): 79.82187318830955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multi-modal models (LMMs) exhibit remarkable performance across
numerous tasks. However, generalist LMMs often suffer from performance
degradation when tuned over a large collection of tasks. Recent research
suggests that Mixture of Experts (MoE) architectures are useful for instruction
tuning, but for LMMs of parameter size around O(50-100B), the prohibitive cost
of replicating and storing the expert models severely limits the number of
experts we can use. We propose Omni-SMoLA, an architecture that uses the Soft
MoE approach to (softly) mix many multimodal low rank experts, and avoids
introducing a significant number of new parameters compared to conventional MoE
models. The core intuition here is that the large model provides a foundational
backbone, while different lightweight experts residually learn specialized
knowledge, either per-modality or multimodally. Extensive experiments
demonstrate that the SMoLA approach helps improve the generalist performance
across a broad range of generative vision-and-language tasks, achieving new
SoTA generalist performance that often matches or outperforms single
specialized LMM baselines, as well as new SoTA specialist performance.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
しかし、一般のLMMは、大量のタスクをチューニングする際に、しばしば性能劣化に悩まされる。
近年の研究では、Mixture of Experts (MoE) アーキテクチャは命令チューニングに有用であることが示唆されているが、O(50-100B) 周辺のパラメータサイズの LMM では、専門家モデルの複製と保存の禁止コストが、使用可能な専門家の数を著しく制限している。
Omni-SMoLAは、ソフトなMoEアプローチを用いて、多くのマルチモーダルな低ランクの専門家を(ソフトに)混合し、従来のMoEモデルと比較してかなりの数の新しいパラメータを導入することを避けるアーキテクチャである。
ここでの核となる直感は、大きなモデルは基本的なバックボーンを提供するが、異なる軽量の専門家は、モダリティ単位またはマルチモーダル単位の専門知識を残留的に学習する。
大規模な実験により、SMoLAアプローチは、広範囲な生成的視覚・言語タスクにおけるジェネラリストのパフォーマンス向上に役立つことが示され、新しいSoTAジェネラリストパフォーマンスは、単一の特殊なLMMベースラインにマッチしたり、性能を上回り、新しいSoTAスペシャリストパフォーマンスを達成する。
関連論文リスト
- Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。
最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。
本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文 参考訳(メタデータ) (2024-04-22T16:33:42Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - Large Language Model for Multi-objective Evolutionary Optimization [26.44390674048544]
多目的進化アルゴリズム(MOEA)は多目的最適化問題(MOP)を解決する主要な方法である
近年、MOEAにおいて手作業で設計された演算子を学習ベースの演算子に置き換える試みが試みられている。
本研究は,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-19T07:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。