論文の概要: Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse
Mixture of Experts
- arxiv url: http://arxiv.org/abs/2305.14705v1
- Date: Wed, 24 May 2023 04:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:48:45.873998
- Title: Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse
Mixture of Experts
- Title(参考訳): Flan-MoE: スペシャリストの疎混合による命令型言語モデルのスケーリング
- Authors: Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei,
Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu,
Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt
Keutzer, Trevor Darrell, Denny Zhou
- Abstract要約: 本稿では,Flan-MoEについて紹介する。
タスク固有のデータセット(言い換えれば命令ファインタニングを含まない)上で自然に微調整されたMoEモデルは、同じ計算複雑性の高密度モデルと比較して、しばしば性能が低下することを示す。
- 参考スコア(独自算出の注目度): 125.91897197446379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth of language models and their applications have led to an
increased demand for efficient and scalable methods. In this paper, we
introduce Flan-MoE, a set of Instruction-Finetuned Sparse Mixture-of-Expert
(MoE) models. We show that naively finetuning MoE models on a task-specific
dataset (in other words, no instruction-finetuning) often yield worse
performance compared to dense models of the same computational complexity.
However, our Flan-MoE outperforms dense models under multiple experiment
settings: instruction-finetuning only and instruction-finetuning followed by
task-specific finetuning. This shows that instruction-finetuning is an
essential stage for MoE models. Specifically, our largest model, Flan-MoE-32B,
surpasses the performance of Flan-PaLM-62B on four benchmarks, while utilizing
only one-third of the FLOPs. The success of Flan-MoE encourages rethinking the
design of large-scale, high-performance language models, under the setting of
task-agnostic learning.
- Abstract(参考訳): 言語モデルとそのアプリケーションの爆発的な成長は、効率的でスケーラブルな方法の需要の増加につながった。
本稿では,flan-moe について述べる。flan-moe は sparse mixed-of-expert (moe) モデルである。
タスク固有のデータセット(言い換えれば命令ファインタニングを含まない)上で自然に微調整されたMoEモデルは、同じ計算複雑性の高密度モデルと比較して、しばしば性能が低下することを示す。
しかし、flan-moeは複数の実験環境で密集したモデルよりも優れています。
これは、命令ファインタニングがMoEモデルにとって不可欠な段階であることを示している。
具体的には、我々の最大のモデルであるFlan-MoE-32Bは、4つのベンチマークでFlan-PaLM-62Bの性能を上回り、FLOPの3分の1しか利用していない。
Flan-MoEの成功は、タスク依存学習の設定の下で、大規模で高性能な言語モデルの設計を再考することを奨励している。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。
Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Data-Efficiency with a Single GPU: An Exploration of Transfer Methods
for Small Language Models [5.539060030062833]
マルチタスク学習、命令チューニング、プロンプトは、大規模言語モデルの新しいタスクへの一般化性を向上させることが示されている。
本研究は, (i) モデルサイズ, (ii) 汎用 MTL, (iii) ドメイン内 MTL, (iv) 命令チューニング, (v) パラメータが5億未満のモデルに対する少数ショット微調整の効果を探索し, 分離する。
論文 参考訳(メタデータ) (2022-10-08T01:45:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。