論文の概要: Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging
- arxiv url: http://arxiv.org/abs/2410.01610v1
- Date: Wed, 2 Oct 2024 14:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:44:34.864153
- Title: Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging
- Title(参考訳): パラメータマージによる高密度からミキサー・オブ・エクササイズへのアップサイクリング指導
- Authors: Tingfeng Hui, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Hua Wu, Sen Su,
- Abstract要約: Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
- 参考スコア(独自算出の注目度): 36.0133566024214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) shines brightly in large language models (LLMs) and demonstrates outstanding performance in plentiful natural language processing tasks. However, existing methods transforming LLMs from dense to MoE face significant data requirements and typically rely on large-scale post-training. In this paper, we propose Upcycling Instruction Tuning (UpIT), a data-efficient approach for tuning a dense pre-trained model into a MoE instruction model. Specifically, we first point out that intermediate checkpoints during instruction tuning of the dense model are naturally suitable for specialized experts, and then propose an expert expansion stage to flexibly achieve models with flexible numbers of experts, where genetic algorithm and parameter merging are introduced to ensure sufficient diversity of new extended experts. To ensure that each specialized expert in the MoE model works as expected, we select a small amount of seed data that each expert excels to pre-optimize the router. Extensive experiments with various data scales and upcycling settings demonstrate the outstanding performance and data efficiency of UpIT, as well as stable improvement in expert or data scaling. Further analysis reveals the importance of ensuring expert diversity in upcycling.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)において明るく輝き、豊富な自然言語処理タスクにおいて優れたパフォーマンスを示す。
しかしながら、LLMを高密度からMoEに変換する既存の手法は、大きなデータ要件に直面しており、通常は大規模なポストトレーニングに依存している。
本稿では,高密度事前学習モデルをMoE命令モデルにチューニングするためのデータ効率の高い手法であるUpcycling Instruction Tuning(UpIT)を提案する。
具体的には、高密度モデルの命令チューニング中の中間チェックポイントが、特殊専門家に自然に適していることを最初に指摘し、その上で、フレキシブルな数の専門家でモデルを柔軟に達成するための専門家拡張ステージを提案し、そこで、遺伝的アルゴリズムとパラメータマージを導入して、新しい拡張専門家の十分な多様性を確保する。
MoEモデルの各専門家が期待通りに動作するようにするために、私たちは、ルータを事前に最適化するために、各専門家が抽出する少数のシードデータを選択します。
さまざまなデータスケールとアップサイクリング設定による大規模な実験は、UpITの優れたパフォーマンスとデータ効率を示し、専門家やデータスケーリングの安定した改善を示している。
さらなる分析は、アップサイクリングにおける専門家の多様性を保証することの重要性を明らかにしている。
関連論文リスト
- Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models [45.51085356985464]
大規模言語モデル(LLM)は、様々な起源から派生した多種多様なデータセットに基づいて微調整されるのが一般的である。
MoSは、微調整プロセス中に自動的にデータ使用量を最適化することを学ぶ。
MoSpecは、特定の目的のために様々なデータセットのユーティリティを利用する。
論文 参考訳(メタデータ) (2024-06-13T05:01:28Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文 参考訳(メタデータ) (2024-02-08T17:43:22Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Lifelong Mixture of Variational Autoencoders [15.350366047108103]
本稿では,専門家の終末から終末までの学習混合物を提案する。
混合システムのエキスパートは、個々の成分証拠の混合を最小限にすることで、共同で訓練される。
モデルは、これらが以前学んだものと似ている場合に、新しいタスクを素早く学習することができる。
論文 参考訳(メタデータ) (2021-07-09T22:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。