論文の概要: MoIN: Mixture of Introvert Experts to Upcycle an LLM
- arxiv url: http://arxiv.org/abs/2410.09687v1
- Date: Sun, 13 Oct 2024 01:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:46:35.254598
- Title: MoIN: Mixture of Introvert Experts to Upcycle an LLM
- Title(参考訳): Moin: LLMをリサイクルするために内向的な専門家の混在
- Authors: Ajinkya Tejankar, KL Navaneet, Ujjawal Panchal, Kossar Pourahmadi, Hamed Pirsiavash,
- Abstract要約: 本稿では,フルモデルの事前学習を継続することなく,既存の大規模言語モデルを改善することを目的とする。
このアイデアは、事前学習データを意味のあるグループに分割し、各サブセットで専門家を訓練する。
推論中、入力されたクエリは、最初に最も関連する専門家にルーティングされ、その後、フォワードパスのためにベースモデルにロードされる。
- 参考スコア(独自算出の注目度): 15.182215869841789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to improve (upcycle) an existing large language model without the prohibitive requirements of continued pre-training of the full-model. The idea is to split the pre-training data into semantically relevant groups and train an expert on each subset. An expert takes the form of a lightweight adapter added on the top of a frozen base model. During inference, an incoming query is first routed to the most relevant expert which is then loaded onto the base model for the forward pass. Unlike typical Mixture of Experts (MoE) models, the experts in our method do not work with other experts for a single query. Hence, we dub them "introvert" experts. Freezing the base model and keeping the experts as lightweight adapters allows extreme parallelism during training and inference. Training of all experts can be done in parallel without any communication channels between them. Similarly, the inference can also be heavily parallelized by distributing experts on different GPUs and routing each request to the GPU containing its relevant expert. We implement a proof-of-concept version of this method and show the validity of our approach.
- Abstract(参考訳): 本研究の目的は,完全モデルの継続事前学習の禁止要件を伴わずに,既存の大規模言語モデルを改善することである。
このアイデアは、事前学習データを意味のあるグループに分割し、各サブセットで専門家を訓練する。
専門家は、冷凍ベースモデルの上部に追加される軽量アダプタの形を取る。
推論中、入力されたクエリは、最初に最も関連する専門家にルーティングされ、その後、フォワードパスのためにベースモデルにロードされる。
典型的なMixture of Experts(MoE)モデルとは異なり、我々の手法の専門家は他の専門家と1つのクエリで機能しない。
そのため、彼らは「内向的な」専門家である。
ベースモデルを凍結し、専門家を軽量なアダプタとして保持することで、トレーニングと推論の間に極端な並列性を実現する。
すべての専門家のトレーニングは、コミュニケーションチャネルを使わずに、並列に行うことができる。
同様に、推論は、異なるGPUの専門家を分散し、関連する専門家を含むGPUに各リクエストをルーティングすることで、非常に並列化することができる。
本手法の概念実証版を実装し,提案手法の有効性を示す。
関連論文リスト
- Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - RouterRetriever: Exploring the Benefits of Routing over Multiple Expert Embedding Models [58.987116118425995]
本稿では,複数のドメインの専門家を対象とする検索モデルであるReuterRetrieverを紹介する。
軽量で、追加のトレーニングなしでエキスパートの追加や削除が簡単にできる。
複数のドメイン固有の専門的な埋め込みモデルを使用することの利点を示す最初の研究である。
論文 参考訳(メタデータ) (2024-09-04T13:16:55Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文 参考訳(メタデータ) (2024-02-08T17:43:22Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Finding Experts in Transformer Models [2.105564340986074]
本研究では、事前訓練されたトランスフォーマーモデル(TM)におけるエキスパートユニットの存在と、それらがモデルの性能に与える影響について検討する。
1641のコンセプトのデータセットをコンパイルし、様々な専門家ユニットをTMで発見できるようにします。
そこで,本研究では,事前学習型言語モデルを用いて,トップエキスパートに積極性を持たせることによって,与えられた概念でテキストを生成する方法について述べる。
論文 参考訳(メタデータ) (2020-05-15T17:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。