論文の概要: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts
- arxiv url: http://arxiv.org/abs/2312.00968v1
- Date: Fri, 1 Dec 2023 23:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:06:42.683660
- Title: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts
- Title(参考訳): Omni-SMoLA:低ランクエキスパートのソフトミックスによる汎用マルチモーダルモデルの構築
- Authors: Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut
- Abstract要約: 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
- 参考スコア(独自算出の注目度): 79.82187318830955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multi-modal models (LMMs) exhibit remarkable performance across
numerous tasks. However, generalist LMMs often suffer from performance
degradation when tuned over a large collection of tasks. Recent research
suggests that Mixture of Experts (MoE) architectures are useful for instruction
tuning, but for LMMs of parameter size around O(50-100B), the prohibitive cost
of replicating and storing the expert models severely limits the number of
experts we can use. We propose Omni-SMoLA, an architecture that uses the Soft
MoE approach to (softly) mix many multimodal low rank experts, and avoids
introducing a significant number of new parameters compared to conventional MoE
models. The core intuition here is that the large model provides a foundational
backbone, while different lightweight experts residually learn specialized
knowledge, either per-modality or multimodally. Extensive experiments
demonstrate that the SMoLA approach helps improve the generalist performance
across a broad range of generative vision-and-language tasks, achieving new
SoTA generalist performance that often matches or outperforms single
specialized LMM baselines, as well as new SoTA specialist performance.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
しかし、一般のLMMは、大量のタスクをチューニングする際に、しばしば性能劣化に悩まされる。
近年の研究では、Mixture of Experts (MoE) アーキテクチャは命令チューニングに有用であることが示唆されているが、O(50-100B) 周辺のパラメータサイズの LMM では、専門家モデルの複製と保存の禁止コストが、使用可能な専門家の数を著しく制限している。
Omni-SMoLAは、ソフトなMoEアプローチを用いて、多くのマルチモーダルな低ランクの専門家を(ソフトに)混合し、従来のMoEモデルと比較してかなりの数の新しいパラメータを導入することを避けるアーキテクチャである。
ここでの核となる直感は、大きなモデルは基本的なバックボーンを提供するが、異なる軽量の専門家は、モダリティ単位またはマルチモーダル単位の専門知識を残留的に学習する。
大規模な実験により、SMoLAアプローチは、広範囲な生成的視覚・言語タスクにおけるジェネラリストのパフォーマンス向上に役立つことが示され、新しいSoTAジェネラリストパフォーマンスは、単一の特殊なLMMベースラインにマッチしたり、性能を上回り、新しいSoTAスペシャリストパフォーマンスを達成する。
関連論文リスト
- Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - DEEM: Dynamic Experienced Expert Modeling for Stance Detection [24.48936546536541]
本稿では,動的経験的エキスパートモデリング(DEEM)手法を提案する。
実験の結果, DEEMは3つの標準ベンチマークで常に最良の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-23T11:24:00Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language
Instruction Tuning [71.53493981808238]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEはタスクカスタマイズモデルパラメータを活性化するために設計された新しいMixture of Expertsアーキテクチャである。
新規な命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートがさらに組み込まれている。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [50.12526092423589]
もっとも先進的なLMMでさえ、構成的視覚的推論の側面を捉えるのに苦戦している。
本稿では,新しいゼロショット・チェーン・オブ・ノート法であるコンポジション・チェーン・オブ・ノート(CCoT)を提案する。
具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - Large Language Model for Multi-objective Evolutionary Optimization [27.769955500670108]
本研究は,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
適切なプロンプトエンジニアリングにより、ゼロショット方式で分解ベースのMOEA(MOEA/D)のためのブラックボックス探索演算子として、汎用LLMを機能させることに成功した。
さらに, LLMの挙動から学習することで, ランダムな明示的なホワイトボックス演算子を設計し, MOEA/D-LOと呼ばれる分解型MOEAの新バージョンを提案する。
論文 参考訳(メタデータ) (2023-10-19T07:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。