論文の概要: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts
- arxiv url: http://arxiv.org/abs/2312.00968v2
- Date: Tue, 2 Apr 2024 19:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:37:19.244964
- Title: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts
- Title(参考訳): Omni-SMoLA:低ランクエキスパートのソフトミックスによる汎用マルチモーダルモデルの構築
- Authors: Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut,
- Abstract要約: 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
- 参考スコア(独自算出の注目度): 74.40198929049959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multi-modal models (LMMs) exhibit remarkable performance across numerous tasks. However, generalist LMMs often suffer from performance degradation when tuned over a large collection of tasks. Recent research suggests that Mixture of Experts (MoE) architectures are useful for instruction tuning, but for LMMs of parameter size around O(50-100B), the prohibitive cost of replicating and storing the expert models severely limits the number of experts we can use. We propose Omni-SMoLA, an architecture that uses the Soft MoE approach to (softly) mix many multimodal low rank experts, and avoids introducing a significant number of new parameters compared to conventional MoE models. The core intuition here is that the large model provides a foundational backbone, while different lightweight experts residually learn specialized knowledge, either per-modality or multimodally. Extensive experiments demonstrate that the SMoLA approach helps improve the generalist performance across a broad range of generative vision-and-language tasks, achieving new SoTA generalist performance that often matches or outperforms single specialized LMM baselines, as well as new SoTA specialist performance.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
しかし、一般のLMMは、大量のタスクをチューニングする際に、しばしば性能劣化に悩まされる。
近年の研究では、Mixture of Experts (MoE) アーキテクチャは命令チューニングに有用であることが示唆されているが、O(50-100B) 周辺のパラメータサイズの LMM では、専門家モデルの複製と保存の禁止コストが、使用可能な専門家の数を著しく制限している。
Omni-SMoLAは、ソフトなMoEアプローチを用いて、多くのマルチモーダルな低ランクの専門家を(ソフトに)混合し、従来のMoEモデルと比較してかなりの数の新しいパラメータを導入することを避けるアーキテクチャである。
ここでの中核となる直感は、大きなモデルが基本的なバックボーンを提供するのに対して、異なる軽量の専門家は、モダリティ毎またはマルチモーダル毎の専門知識を残留的に学習する、ということである。
大規模な実験により、SMoLAアプローチは、広範囲な生成的視覚・言語タスクにおけるジェネラリストのパフォーマンス向上に役立つことが示され、新しいSoTAジェネラリストパフォーマンスは、単一の特殊なLMMベースラインにマッチしたり、性能を上回り、新しいSoTAスペシャリストパフォーマンスを達成する。
関連論文リスト
- Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - DEEM: Dynamic Experienced Expert Modeling for Stance Detection [22.826544082557316]
本稿では,動的経験的エキスパートモデリング(DEEM)手法を提案する。
実験の結果, DEEMは3つの標準ベンチマークで常に最良の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-23T11:24:00Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスタ条件付きLoRAエキスパート(MoCLE)の混合は、命令クラスタに基づいてタスクカストマイズされたモデルパラメータを活性化するように設計されている。
新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。
11のゼロショットタスクの実験では、MoCLEの有効性が示されている。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - Large Language Model for Multi-objective Evolutionary Optimization [26.44390674048544]
多目的進化アルゴリズム(MOEA)は多目的最適化問題(MOP)を解決する主要な方法である
近年、MOEAにおいて手作業で設計された演算子を学習ベースの演算子に置き換える試みが試みられている。
本研究は,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-19T07:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。