論文の概要: Scaling Instruction-Finetuned Language Models
- arxiv url: http://arxiv.org/abs/2210.11416v2
- Date: Fri, 21 Oct 2022 17:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 10:57:07.005693
- Title: Scaling Instruction-Finetuned Language Models
- Title(参考訳): 命令型言語モデルのスケーリング
- Authors: Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William
Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert
Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha
Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping
Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob
Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei
- Abstract要約: 命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
- 参考スコア(独自算出の注目度): 126.4789306516927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning language models on a collection of datasets phrased as
instructions has been shown to improve model performance and generalization to
unseen tasks. In this paper we explore instruction finetuning with a particular
focus on (1) scaling the number of tasks, (2) scaling the model size, and (3)
finetuning on chain-of-thought data. We find that instruction finetuning with
the above aspects dramatically improves performance on a variety of model
classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and
evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For
instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM
540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves
state-of-the-art performance on several benchmarks, such as 75.2% on five-shot
MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong
few-shot performance even compared to much larger models, such as PaLM 62B.
Overall, instruction finetuning is a general method for improving the
performance and usability of pretrained language models.
- Abstract(参考訳): 命令としてフレーズされたデータセットのコレクション上で言語モデルを微調整することで、モデルのパフォーマンスと未認識のタスクへの一般化が向上することが示されている。
本稿では,(1)タスク数の拡大,(2)モデルサイズの拡大,(3)チェーンオブ思考データへの微調整について,特に焦点を絞った教示微調整について検討する。
以上より,様々なモデルクラス (PaLM, T5, U-PaLM) の性能を劇的に向上させ, 設定の高速化 (ゼロショット, 少数ショット, CoT) と評価ベンチマーク (MMLU, BBH, TyDiQA, MGSM, オープンエンドジェネレーション) を実現した。
例えば、Flan-PaLM 540B命令は1.8Kタスクで調整され、PALM 540Bよりも大きなマージン(平均で9.4%)で性能が向上する。
Flan-PaLM 540Bは5ショットMMLUの75.2%など、いくつかのベンチマークで最先端のパフォーマンスを実現している。
また、我々は、PaLM 62Bのようなより大きなモデルと比較しても、強力な数ショットのパフォーマンスを実現するFlan-T5チェックポイントを公開しています。
全体として、命令微調整は事前訓練された言語モデルの性能とユーザビリティを向上させる一般的な方法である。
関連論文リスト
- LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Evaluating the Robustness to Instructions of Large Language Models [6.947956990248856]
微調整大型言語モデル(LLM)は、新しいタスクにおけるゼロショット能力を向上することができる。
Alpaca, Vicuna, WizardLM, 従来のタスク指向モデル(Flan-T5-XL/XXL, T0++)を含む6つのモデルを評価する。
異なるスケールのFLAN-T5モデルのRE命令に対するロバスト性は、QA命令に対するロバスト性よりも劣っていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:57:07Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。