論文の概要: Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse
Mixture of Experts
- arxiv url: http://arxiv.org/abs/2305.14705v1
- Date: Wed, 24 May 2023 04:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:48:45.873998
- Title: Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse
Mixture of Experts
- Title(参考訳): Flan-MoE: スペシャリストの疎混合による命令型言語モデルのスケーリング
- Authors: Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei,
Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu,
Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt
Keutzer, Trevor Darrell, Denny Zhou
- Abstract要約: 本稿では,Flan-MoEについて紹介する。
タスク固有のデータセット(言い換えれば命令ファインタニングを含まない)上で自然に微調整されたMoEモデルは、同じ計算複雑性の高密度モデルと比較して、しばしば性能が低下することを示す。
- 参考スコア(独自算出の注目度): 125.91897197446379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth of language models and their applications have led to an
increased demand for efficient and scalable methods. In this paper, we
introduce Flan-MoE, a set of Instruction-Finetuned Sparse Mixture-of-Expert
(MoE) models. We show that naively finetuning MoE models on a task-specific
dataset (in other words, no instruction-finetuning) often yield worse
performance compared to dense models of the same computational complexity.
However, our Flan-MoE outperforms dense models under multiple experiment
settings: instruction-finetuning only and instruction-finetuning followed by
task-specific finetuning. This shows that instruction-finetuning is an
essential stage for MoE models. Specifically, our largest model, Flan-MoE-32B,
surpasses the performance of Flan-PaLM-62B on four benchmarks, while utilizing
only one-third of the FLOPs. The success of Flan-MoE encourages rethinking the
design of large-scale, high-performance language models, under the setting of
task-agnostic learning.
- Abstract(参考訳): 言語モデルとそのアプリケーションの爆発的な成長は、効率的でスケーラブルな方法の需要の増加につながった。
本稿では,flan-moe について述べる。flan-moe は sparse mixed-of-expert (moe) モデルである。
タスク固有のデータセット(言い換えれば命令ファインタニングを含まない)上で自然に微調整されたMoEモデルは、同じ計算複雑性の高密度モデルと比較して、しばしば性能が低下することを示す。
しかし、flan-moeは複数の実験環境で密集したモデルよりも優れています。
これは、命令ファインタニングがMoEモデルにとって不可欠な段階であることを示している。
具体的には、我々の最大のモデルであるFlan-MoE-32Bは、4つのベンチマークでFlan-PaLM-62Bの性能を上回り、FLOPの3分の1しか利用していない。
Flan-MoEの成功は、タスク依存学習の設定の下で、大規模で高性能な言語モデルの設計を再考することを奨励している。
関連論文リスト
- Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。
そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。
コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-01T09:10:27Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメント・チューニング(英: Statement-Tuning)は、有限文の集合として識別的タスクをモデル化し、潜在的なステートメントを識別してラベルを決定するモデルを訓練する手法である。
実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Evaluating the Zero-shot Robustness of Instruction-tuned Language Models [23.488398944358643]
新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
論文 参考訳(メタデータ) (2023-06-20T03:48:51Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z) - Data-Efficiency with a Single GPU: An Exploration of Transfer Methods
for Small Language Models [5.539060030062833]
マルチタスク学習、命令チューニング、プロンプトは、大規模言語モデルの新しいタスクへの一般化性を向上させることが示されている。
本研究は, (i) モデルサイズ, (ii) 汎用 MTL, (iii) ドメイン内 MTL, (iv) 命令チューニング, (v) パラメータが5億未満のモデルに対する少数ショット微調整の効果を探索し, 分離する。
論文 参考訳(メタデータ) (2022-10-08T01:45:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。