論文の概要: A Survey on Mixture of Experts
- arxiv url: http://arxiv.org/abs/2407.06204v2
- Date: Thu, 8 Aug 2024 07:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:59:35.685213
- Title: A Survey on Mixture of Experts
- Title(参考訳): 専門家の混ざり合いに関する調査
- Authors: Weilin Cai, Juyong Jiang, Fan Wang, Jing Tang, Sunghun Kim, Jiayi Huang,
- Abstract要約: モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。
MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
- 参考スコア(独自算出の注目度): 11.801185267119298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge developments in MoE research, we have established a resource repository accessible at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理からコンピュータビジョンなど、様々な分野において前例のない進歩を遂げている。
LLMの進歩は、その相当なモデルサイズ、広範囲で多様なデータセット、および訓練中に活用される膨大な計算能力によって支えられ、これらすべてが、小さなモデルに存在しないLLM(例えば、文脈内学習)の創発的能力に寄与している。
この文脈の中で、専門家(MoE)の混在は、最小の計算オーバーヘッドでモデルキャパシティを実質的にスケールアップする有効な方法として現れ、アカデミックや業界から大きな注目を集めている。
普及しているにもかかわらず、MoEに関する文献の体系的かつ包括的なレビューは欠如している。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
まずまず,MoE層の構造について概説し,その後にMoEの新しい分類法を提案する。
次に,アルゴリズム的側面とシステム的側面の両方を含む様々なMoEモデルのコア設計と,利用可能なオープンソース実装のコレクション,ハイパーパラメータ構成,経験的評価について概説する。
さらに,MoEの多面的応用について概説し,今後の研究の方向性について概説する。
MoE研究で進行中の更新と最先端の開発の共有を容易にするため、https://github.com/withinmiaov/A-Survey-on-Mixture-of-Expertsで利用可能なリソースリポジトリを構築した。
関連論文リスト
- Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [44.848642930797155]
OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。
本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。
MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
論文 参考訳(メタデータ) (2024-01-29T12:05:02Z) - A Survey of Resource-efficient LLM and Multimodal Foundation Models [22.60868015887625]
大規模言語モデル(LLM)、ビジョントランスフォーマー(ViT)、拡散、マルチモーダルモデルを含む大規模な基盤モデルは、機械学習ライフサイクル全体に革命をもたらしている。
しかしながら、これらのモデルが提供する汎用性と性能の大幅な進歩は、ハードウェアリソースの面でかなりのコストがかかる。
この調査は、アルゴリズム的側面とシステム的側面の両方を調べることで、そのような研究の重要さを掘り下げるものである。
論文 参考訳(メタデータ) (2024-01-16T03:35:26Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。