論文の概要: Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14705v2
- Date: Wed, 5 Jul 2023 17:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 20:33:09.219961
- Title: Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models
- Title(参考訳): mix-of-expertsは命令チューニングを満たしている:大規模言語モデルにおける勝利の組み合わせ
- Authors: Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei,
Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu,
Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt
Keutzer, Trevor Darrell, Denny Zhou
- Abstract要約: MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
- 参考スコア(独自算出の注目度): 125.91897197446379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) is a neural architecture design that can be
utilized to add learnable parameters to Large Language Models (LLMs) without
increasing inference cost. Instruction tuning is a technique for training LLMs
to follow instructions. We advocate combining these two approaches, as we find
that MoE models benefit more from instruction tuning than dense models. In
particular, we conduct empirical studies across three experimental setups: (i)
Direct finetuning on individual downstream tasks devoid of instruction tuning;
(ii) Instructiontuning followed by in-context few-shot or zero-shot
generalization on downstream tasks; and (iii) Instruction tuning supplemented
by further finetuning on individual downstream tasks. In the first scenario,
MoE models overall underperform dense models of identical computational
capacity. This narrative, however, dramatically changes with the introduction
of instruction tuning (second and third scenario), used independently or in
conjunction with task-specific finetuning. Our most powerful model,
FLAN-MOE-32B, surpasses the performance of FLAN-PALM-62B on four benchmark
tasks, while using only a third of the FLOPs. The advancements embodied
byFLAN-MOE inspire a reevaluation of the design principles of large-scale,
high-performance language models in the framework of task-agnostic learning.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)に学習可能なパラメータを追加するために、推論コストを増大させることなく使用できるニューラルネットワーク設計である。
命令チューニングは、命令に従うようにllmを訓練するテクニックである。
我々はこれらの2つのアプローチを組み合わせることを提唱し、MoEモデルは高密度モデルよりも命令チューニングの恩恵を受けることを見出した。
特に,3つの実験施設で経験的研究を行う。
(i)命令のチューニングを伴わない個々の下流タスクの直接微調整
(ii)ダウンストリームタスクのインストラクションチューニングに続いて、インコンテキストの少数またはゼロショットの一般化
(iii)個別のダウンストリームタスクの微調整により補う命令チューニング。
最初のシナリオでは、moeモデル全体が同一の計算能力を持つ密度の低いモデルである。
しかし、この物語は命令チューニング(第2シナリオと第3シナリオ)の導入によって劇的に変化し、タスク固有の微調整と独立して使用される。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクでFLAN-PALM-62Bの性能を上回る。
FLAN-MOEによって具現化された進歩は、タスクに依存しない学習の枠組みにおいて、大規模で高性能な言語モデルの設計原則を再評価するきっかけとなった。
関連論文リスト
- Demystifying Instruction Mixing for Fine-tuning Large Language Models [29.69436955342966]
本研究は,NLPダウンストリームタスク,コーディング,一般的なチャットという,命令を3つの主要なタイプに分類する。
特定の命令型は特定のアプリケーションに対してより有利であるが、他の領域に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-12-17T18:44:26Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Evaluating the Zero-shot Robustness of Instruction-tuned Language Models [23.488398944358643]
新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
論文 参考訳(メタデータ) (2023-06-20T03:48:51Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z) - Data-Efficiency with a Single GPU: An Exploration of Transfer Methods
for Small Language Models [5.539060030062833]
マルチタスク学習、命令チューニング、プロンプトは、大規模言語モデルの新しいタスクへの一般化性を向上させることが示されている。
本研究は, (i) モデルサイズ, (ii) 汎用 MTL, (iii) ドメイン内 MTL, (iv) 命令チューニング, (v) パラメータが5億未満のモデルに対する少数ショット微調整の効果を探索し, 分離する。
論文 参考訳(メタデータ) (2022-10-08T01:45:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。