Fugu-MT 論文翻訳(概要): Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts

論文の概要: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts

arxiv url: http://arxiv.org/abs/2312.00968v1
Date: Fri, 1 Dec 2023 23:04:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 20:06:42.683660
Title: Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts
Title（参考訳）: Omni-SMoLA:低ランクエキスパートのソフトミックスによる汎用マルチモーダルモデルの構築
Authors: Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut
Abstract要約: 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
参考スコア（独自算出の注目度）: 79.82187318830955
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large multi-modal models (LMMs) exhibit remarkable performance across numerous tasks. However, generalist LMMs often suffer from performance degradation when tuned over a large collection of tasks. Recent research suggests that Mixture of Experts (MoE) architectures are useful for instruction tuning, but for LMMs of parameter size around O(50-100B), the prohibitive cost of replicating and storing the expert models severely limits the number of experts we can use. We propose Omni-SMoLA, an architecture that uses the Soft MoE approach to (softly) mix many multimodal low rank experts, and avoids introducing a significant number of new parameters compared to conventional MoE models. The core intuition here is that the large model provides a foundational backbone, while different lightweight experts residually learn specialized knowledge, either per-modality or multimodally. Extensive experiments demonstrate that the SMoLA approach helps improve the generalist performance across a broad range of generative vision-and-language tasks, achieving new SoTA generalist performance that often matches or outperforms single specialized LMM baselines, as well as new SoTA specialist performance.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。しかし、一般のLMMは、大量のタスクをチューニングする際に、しばしば性能劣化に悩まされる。近年の研究では、Mixture of Experts (MoE) アーキテクチャは命令チューニングに有用であることが示唆されているが、O(50-100B) 周辺のパラメータサイズの LMM では、専門家モデルの複製と保存の禁止コストが、使用可能な専門家の数を著しく制限している。 Omni-SMoLAは、ソフトなMoEアプローチを用いて、多くのマルチモーダルな低ランクの専門家を(ソフトに)混合し、従来のMoEモデルと比較してかなりの数の新しいパラメータを導入することを避けるアーキテクチャである。ここでの核となる直感は、大きなモデルは基本的なバックボーンを提供するが、異なる軽量の専門家は、モダリティ単位またはマルチモーダル単位の専門知識を残留的に学習する。大規模な実験により、SMoLAアプローチは、広範囲な生成的視覚・言語タスクにおけるジェネラリストのパフォーマンス向上に役立つことが示され、新しいSoTAジェネラリストパフォーマンスは、単一の特殊なLMMベースラインにマッチしたり、性能を上回り、新しいSoTAスペシャリストパフォーマンスを達成する。

関連論文リスト

EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models [25.12002287083368]
MLLM(Multi-modal large language model)は、MoE技術を採用した。 MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。ルータの剛性は専門家の選択に静的リニアルータが広く使われていることに由来する
論文参考訳（メタデータ） (2025-05-28T08:38:39Z)
Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文参考訳（メタデータ） (2025-03-29T14:35:34Z)
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文参考訳（メタデータ） (2025-03-12T06:01:05Z)
OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。これらの知見に触発されて、直交混合(OMoE)を提案する。提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文参考訳（メタデータ） (2025-01-17T09:27:08Z)
Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文参考訳（メタデータ） (2024-12-08T16:10:42Z)
Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。 MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文参考訳（メタデータ） (2024-10-02T14:48:22Z)
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2024-07-17T16:31:38Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。 MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文参考訳（メタデータ） (2024-04-23T13:47:09Z)
Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文参考訳（メタデータ） (2024-04-22T16:33:42Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合 MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。 InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文参考訳（メタデータ） (2023-12-19T18:11:19Z)
Large Language Model for Multi-objective Evolutionary Optimization [26.44390674048544]
多目的進化アルゴリズム(MOEA)は多目的最適化問題(MOP)を解決する主要な方法である近年、MOEAにおいて手作業で設計された演算子を学習ベースの演算子に置き換える試みが試みられている。本研究は,MOEA演算子の設計に強力な大規模言語モデル(LLM)を活用する新しいアプローチについて検討する。
論文参考訳（メタデータ） (2023-10-19T07:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。