論文の概要: Exploring the Benefits of Training Expert Language Models over
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2302.03202v2
- Date: Thu, 9 Feb 2023 04:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 12:12:19.887573
- Title: Exploring the Benefits of Training Expert Language Models over
Instruction Tuning
- Title(参考訳): 指導指導におけるエキスパート言語モデルの訓練効果を探る
- Authors: Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen
Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo
- Abstract要約: 我々は,1つのタスクだけを微調整した専門家LMが,300以上のタスクで訓練されたMT LMよりも優れた性能を発揮することを,予期せぬ発見を報告した。
この発見は、単にタスクの数を拡大するだけでMT LMがより強くなるという、これまで信じられていた信念に疑問を投げかけている。
- 参考スコア(独自算出の注目度): 22.819845671265572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Language Models (LMs) instruction-tuned on multiple tasks, also
known as multitask-prompted fine-tuning (MT), have shown the capability to
generalize to unseen tasks. Previous work has shown that scaling the number of
training tasks is the key component in making stronger MT LMs. In this work, we
report an unexpected finding that an expert LM fine-tuned on just a single task
can outperform an MT LM trained with 300+ different tasks on 11 different
unseen datasets and on 13 datasets of the BIG-bench benchmark by a mean
accuracy of 3.20% and 1.29%, respectively. This finding casts doubt on the
previously held belief that simply scaling the number of tasks makes stronger
MT LMs. Leveraging this finding, we further show that this distributed approach
of training a separate expert LM per training task instead of a single MT LM
for zero-shot inference possesses many benefits including (1) avoiding negative
task transfer that often occurs during instruction tuning, (2) being able to
continually learn new tasks without having to re-train on previous tasks to
avoid catastrophic forgetting, and (3) showing compositional capabilities when
merging individual experts together. The code is available at
https://github.com/joeljang/ELM.
- Abstract(参考訳): 近年,言語モデル (LM) は,マルチタスク型ファインチューニング (MT) としても知られる複数のタスクに適応し,未知のタスクに一般化する能力を示している。
これまでの研究によると、トレーニングタスクの数を拡大することが、より強力なMT LMを作る上で重要な要素であった。
本研究では,1つのタスクのみに微調整された専門家LMが,11の異なる未知のデータセットで300以上のタスクを訓練したMT LMと,平均精度3.20%と1.29%でBIG-benchベンチマークの13のデータセットをそれぞれ上回り得ることを発見した。
この発見は、単にタスクの数を拡大するだけでMT LMがより強くなるという、これまで信じられていた信念に疑問を投げかけている。
さらに, ゼロショット推論のための単一のMT LMではなく, 個別の訓練タスクごとに個別の専門家LMを訓練する分散手法は, 1) 指導指導中に頻繁に発生する負のタスク伝達を回避すること, (2) 破滅的な忘れを抑えるために, (3) 個々の専門家をまとめて構成能力を示すことなく, 新たなタスクを継続的に学習できること, など多くの利点があることを示した。
コードはhttps://github.com/joeljang/elmで入手できる。
関連論文リスト
- MT2ST: Adaptive Multi-Task to Single-Task Learning [7.307436175842646]
Multi-Task to Single-Task (MT2ST) は単語埋め込み訓練の効率と精度を大幅に向上させる新しい手法である。
実験により,MT2STはシングルタスク学習と比較してトレーニング時間を67%短縮できることが示された。
論文 参考訳(メタデータ) (2024-06-26T03:12:07Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - When to Use Multi-Task Learning vs Intermediate Fine-Tuning for
Pre-Trained Encoder Transfer Learning [15.39115079099451]
近年,自然言語処理における伝達学習(TL)への関心が高まっている。
微調整中に複数の教師付きデータセットを使用するための3つの主要な戦略が登場した。
GLUEデータセットの包括的解析において,3つのTL手法を比較した。
論文 参考訳(メタデータ) (2022-05-17T06:48:45Z) - Task Uncertainty Loss Reduce Negative Transfer in Asymmetric Multi-task
Feature Learning [0.0]
マルチタスク学習(MTL)は、シングルタスク学習(STL)と比較して全体的なタスクパフォーマンスを向上させることができるが、負の転送(NT)を隠すことができる。
非対称マルチタスク特徴学習(AMTFL)は、損失値の高いタスクが他のタスクを学習するための特徴表現に与える影響を小さくすることで、この問題に対処しようとするアプローチである。
2つのデータセット (画像認識と薬理ゲノミクス) におけるntの例を示し, 課題間の相対的信頼度を捉え, タスク損失の重み付けを行うことにより, この課題に挑戦する。
論文 参考訳(メタデータ) (2020-12-17T13:30:45Z) - Learning to Multi-Task Learn for Better Neural Machine Translation [53.06405021125476]
マルチタスク学習は、言語関連バイアスをニューラルネットワーク翻訳モデルに注入するエレガントなアプローチである。
本稿では,学習スケジュールの学習,マルチタスク学習のための新しいフレームワークを提案する。
実験の結果、自動学習したトレーニングスケジューラがベストと競い合っており、最大1.1BLEUスコアが向上している。
論文 参考訳(メタデータ) (2020-01-10T03:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。