論文の概要: A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning
- arxiv url: http://arxiv.org/abs/2408.07057v1
- Date: Tue, 13 Aug 2024 17:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 16:45:31.943031
- Title: A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning
- Title(参考訳): モデルモエリングに関する調査研究:協調学習の専門家のリサイクリングとルーティング
- Authors: Prateek Yadav, Colin Raffel, Mohammed Muqeeth, Lucas Caccia, Haokun Liu, Tianlong Chen, Mohit Bansal, Leshem Choshen, Alessandro Sordoni,
- Abstract要約: MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。
MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。
このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
- 参考スコア(独自算出の注目度): 136.89318317245855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of performant pre-trained models has led to a proliferation of fine-tuned expert models that are specialized to a particular domain or task. Model MoErging methods aim to recycle expert models to create an aggregate system with improved performance or generalization. A key component of MoErging methods is the creation of a router that decides which expert model(s) to use for a particular input or application. The promise, effectiveness, and large design space of MoErging has spurred the development of many new methods over the past few years. This rapid pace of development has made it challenging to compare different MoErging methods, which are rarely compared to one another and are often validated in different experimental setups. To remedy such gaps, we present a comprehensive survey of MoErging methods that includes a novel taxonomy for cataloging key design choices and clarifying suitable applications for each method. Apart from surveying MoErging research, we inventory software tools and applications that make use of MoErging. We additionally discuss related fields of study such as model merging, multitask learning, and mixture-of-experts models. Taken as a whole, our survey provides a unified overview of existing MoErging methods and creates a solid foundation for future work in this burgeoning field.
- Abstract(参考訳): 性能訓練済みのモデルが利用可能になったことで、特定のドメインやタスクに特化して調整されたエキスパートモデルが急増した。
Model MoErgingメソッドは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。
MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。
MoErgingの約束、有効性、そして大きなデザイン空間は、過去数年間に多くの新しい方法の開発を刺激してきた。
この急速な開発ペースは、異なるMoErgingメソッドの比較を困難にしている。
このようなギャップを解消するために,キーデザインの選択をカタログ化し,各手法に適した適用方法を明確にするための新しい分類法を含むMoErging法を包括的に調査する。
MoErgingの調査とは別に、MoErgingを利用するソフトウェアツールやアプリケーションを目録化しています。
また、モデルマージ、マルチタスク学習、ミックス・オブ・エキスパートモデルなど、関連する研究分野についても論じる。
総じて、我々の調査は既存のMoErging手法の統一的な概要を提供し、この急成長する分野における今後の研究の確かな基盤をつくりだす。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
そこで本研究では,モデルパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
本手法は,Mixtral-8x7BとMixtral-8x22Bの2種類のMoEモデルを用いて評価を行った。
本手法は,様々な自然言語タスクにおいて,他のモデルプルーニング手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - A Survey on Mixture of Experts [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。
MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文 参考訳(メタデータ) (2024-06-26T16:34:33Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - Wisdom of Committee: Distilling from Foundation Model to Specialized Application Model [43.5276936177329]
我々は,基礎モデル教員と補完教師の両方からなる教育委員会を創設することを提案する。
補完的な教師は、基礎モデルと専門的な応用モデルの間のギャップを埋めることを目的として、学生と同様のモデル特性を持っている。
本評価は,補完的な教員の増員が学生のパフォーマンスを向上させることを示すものである。
論文 参考訳(メタデータ) (2024-02-21T04:33:26Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。