論文の概要: Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14705v2
- Date: Wed, 5 Jul 2023 17:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 20:33:09.219961
- Title: Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models
- Title(参考訳): mix-of-expertsは命令チューニングを満たしている:大規模言語モデルにおける勝利の組み合わせ
- Authors: Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei,
Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu,
Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt
Keutzer, Trevor Darrell, Denny Zhou
- Abstract要約: MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
- 参考スコア(独自算出の注目度): 125.91897197446379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) is a neural architecture design that can be
utilized to add learnable parameters to Large Language Models (LLMs) without
increasing inference cost. Instruction tuning is a technique for training LLMs
to follow instructions. We advocate combining these two approaches, as we find
that MoE models benefit more from instruction tuning than dense models. In
particular, we conduct empirical studies across three experimental setups: (i)
Direct finetuning on individual downstream tasks devoid of instruction tuning;
(ii) Instructiontuning followed by in-context few-shot or zero-shot
generalization on downstream tasks; and (iii) Instruction tuning supplemented
by further finetuning on individual downstream tasks. In the first scenario,
MoE models overall underperform dense models of identical computational
capacity. This narrative, however, dramatically changes with the introduction
of instruction tuning (second and third scenario), used independently or in
conjunction with task-specific finetuning. Our most powerful model,
FLAN-MOE-32B, surpasses the performance of FLAN-PALM-62B on four benchmark
tasks, while using only a third of the FLOPs. The advancements embodied
byFLAN-MOE inspire a reevaluation of the design principles of large-scale,
high-performance language models in the framework of task-agnostic learning.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)に学習可能なパラメータを追加するために、推論コストを増大させることなく使用できるニューラルネットワーク設計である。
命令チューニングは、命令に従うようにllmを訓練するテクニックである。
我々はこれらの2つのアプローチを組み合わせることを提唱し、MoEモデルは高密度モデルよりも命令チューニングの恩恵を受けることを見出した。
特に,3つの実験施設で経験的研究を行う。
(i)命令のチューニングを伴わない個々の下流タスクの直接微調整
(ii)ダウンストリームタスクのインストラクションチューニングに続いて、インコンテキストの少数またはゼロショットの一般化
(iii)個別のダウンストリームタスクの微調整により補う命令チューニング。
最初のシナリオでは、moeモデル全体が同一の計算能力を持つ密度の低いモデルである。
しかし、この物語は命令チューニング(第2シナリオと第3シナリオ)の導入によって劇的に変化し、タスク固有の微調整と独立して使用される。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクでFLAN-PALM-62Bの性能を上回る。
FLAN-MOEによって具現化された進歩は、タスクに依存しない学習の枠組みにおいて、大規模で高性能な言語モデルの設計原則を再評価するきっかけとなった。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。
GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。
アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-01T04:25:26Z) - Mosaic IT: Enhancing Instruction Tuning with Data Mosaics [30.82220015525281]
大規模な言語モデルを微調整するための人間/モデルなしの手法であるMosaic Instruction Tuning(Mosaic-IT)を紹介する。
Mosaic-ITはランダムに複数の命令データを1つにまとめ、対応する応答を生成するようモデルを訓練する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメント・チューニング(英: Statement-Tuning)は、有限文の集合として識別的タスクをモデル化し、潜在的なステートメントを識別してラベルを決定するモデルを訓練する手法である。
実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler [1.9015367254988451]
本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
論文 参考訳(メタデータ) (2024-03-26T09:41:21Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Data-Efficiency with a Single GPU: An Exploration of Transfer Methods
for Small Language Models [5.539060030062833]
マルチタスク学習、命令チューニング、プロンプトは、大規模言語モデルの新しいタスクへの一般化性を向上させることが示されている。
本研究は, (i) モデルサイズ, (ii) 汎用 MTL, (iii) ドメイン内 MTL, (iv) 命令チューニング, (v) パラメータが5億未満のモデルに対する少数ショット微調整の効果を探索し, 分離する。
論文 参考訳(メタデータ) (2022-10-08T01:45:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。