論文の概要: Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts
- arxiv url: http://arxiv.org/abs/2408.15901v1
- Date: Wed, 28 Aug 2024 16:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:21:26.833686
- Title: Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts
- Title(参考訳): Nexus: 専門家の混在を効果的に訓練するための適応性を満たす特殊化
- Authors: Nikolas Gritsch, Qizhen Zhang, Acyr Locatelli, Sara Hooker, Ahmet Üstün,
- Abstract要約: 我々は、高度専門家モデルをMoEに"アップサイクル"することに集中し、特殊化を改善しつつ、新しいタスクに容易に適応できる機能を追加することを目的としています。
適応的なルーティングを備えた拡張MoEアーキテクチャであるNexusを導入し、ドメイン表現から専門家の埋め込みをプロジェクト化する。
実験の結果,Nexusは初回サイクルのベースラインよりも最大2.1%向上し,また,限られた微調整データを用いてMoEを新たな専門家で拡張する相対的なゲインが18.8%向上していることがわかった。
- 参考スコア(独自算出の注目度): 6.061698183565903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiency, specialization, and adaptability to new data distributions are qualities that are hard to combine in current Large Language Models. The Mixture of Experts (MoE) architecture has been the focus of significant research because its inherent conditional computation enables such desirable properties. In this work, we focus on "upcycling" dense expert models into an MoE, aiming to improve specialization while also adding the ability to adapt to new tasks easily. We introduce Nexus, an enhanced MoE architecture with adaptive routing where the model learns to project expert embeddings from domain representations. This approach allows Nexus to flexibly add new experts after the initial upcycling through separately trained dense models, without requiring large-scale MoE training for unseen data domains. Our experiments show that Nexus achieves a relative gain of up to 2.1% over the baseline for initial upcycling, and a 18.8% relative gain for extending the MoE with a new expert by using limited finetuning data. This flexibility of Nexus is crucial to enable an open-source ecosystem where every user continuously assembles their own MoE-mix according to their needs.
- Abstract(参考訳): 新たなデータ分散への効率性、特殊化、適応性は、現在の大規模言語モデルでは組み合わせが難しい品質です。
The Mixture of Experts (MoE) architecture has been focus of significant research because its inherent conditional compute could such desired properties。
本研究は,高度専門家モデルをMoEに "アップサイクル" することに焦点を当て,新たなタスクに容易に適応できる機能を追加しながら,専門性を向上させることを目的としている。
適応的なルーティングを備えた拡張MoEアーキテクチャであるNexusを導入し、ドメイン表現から専門家の埋め込みをプロジェクト化する。
このアプローチにより、Nexusは、未確認のデータドメインに対する大規模なMoEトレーニングを必要とせずに、個別にトレーニングされた密集モデルを通じて、初期化後の新たなエキスパートを柔軟に追加することができる。
実験の結果,Nexusは初回サイクルのベースラインよりも最大2.1%向上し,また,限られた微調整データを用いてMoEを新たな専門家で拡張する相対的なゲインが18.8%向上していることがわかった。
Nexusのこの柔軟性は、すべてのユーザが必要に応じて自身のMoE-mixを継続的に組み立てるオープンソースエコシステムを実現するために不可欠です。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
そこで本研究では,モデルパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
本手法は,Mixtral-8x7BとMixtral-8x22Bの2種類のMoEモデルを用いて評価を行った。
本手法は,様々な自然言語タスクにおいて,他のモデルプルーニング手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE) パラダイムは、密度の高い層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分な専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - FedJETs: Efficient Just-In-Time Personalization with Federated Mixture
of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。
我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。
我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T15:47:52Z) - Improving Expert Specialization in Mixture of Experts [0.7366405857677227]
エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
論文 参考訳(メタデータ) (2023-02-28T16:16:45Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。