論文の概要: Continual-T0: Progressively Instructing 50+ Tasks to Language Models
Without Forgetting
- arxiv url: http://arxiv.org/abs/2205.12393v1
- Date: Tue, 24 May 2022 22:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:59:18.858247
- Title: Continual-T0: Progressively Instructing 50+ Tasks to Language Models
Without Forgetting
- Title(参考訳): Continual-T0: 忘れずに50以上のタスクを言語モデルにプログレッシブに指示する
- Authors: Thomas Scialom and Tuhin Chakrabarty and Smaranda Muresan
- Abstract要約: モデルは、以前のスキルを忘れずに、その知識と能力を拡張し続けることができるべきだ、と私たちは主張する。
我々は、この成功の理由を実証的に調査し、継続学習は自己超越的な事前学習から生まれると結論づける。
得られたモデルであるContinual-T0(CT0)は、さまざまな新しいタスクを学習すると同時に、以前のタスクでも優れたパフォーマンスを維持しながら、合計70のデータセットに著しく分散しています。
- 参考スコア(独自算出の注目度): 43.26527621636809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on large language models relies on the intuition that most
natural language processing tasks can be described via natural language
instructions. Language models trained on these instructions show strong
zero-shot performance on several standard datasets. However, these models even
though impressive still perform poorly on a wide range of tasks outside of
their respective training and evaluation sets. To address this limitation, we
argue that a model should be able to keep extending its knowledge and
abilities, without forgetting previous skills. In spite of the limited success
of Continual Learning we show that Language Models can be continual learners.
We empirically investigate the reason for this success and conclude that
Continual Learning emerges from self-supervision pre-training. Our resulting
model Continual-T0 (CT0) is able to learn diverse new tasks, while still
maintaining good performance on previous tasks, spanning remarkably through 70
datasets in total. Finally, we show that CT0 is able to combine instructions in
ways it was never trained for, demonstrating some compositionality.
- Abstract(参考訳): 最近の大規模言語モデルの研究は、ほとんどの自然言語処理タスクが自然言語命令で記述できるという直感に依存している。
これらの命令でトレーニングされた言語モデルは、いくつかの標準データセットで強いゼロショット性能を示す。
しかしながら、これらのモデルは印象的ではあるが、それぞれのトレーニングや評価セット以外では、幅広いタスクで性能が劣る。
この制限に対処するために、モデルが以前のスキルを忘れずに、その知識と能力を拡張し続けることができるべきだと論じる。
連続学習の限られた成功にもかかわらず、言語モデルが連続学習者になり得ることを示す。
我々は,この成功の理由を実証的に調査し,自己スーパービジョン事前学習から連続学習が生まれると結論づける。
得られたモデルであるContinual-T0(CT0)は、さまざまな新しいタスクを学習すると同時に、以前のタスクでも優れたパフォーマンスを維持しながら、合計70のデータセットに著しく分散しています。
最後に、CT0はトレーニングされていない方法で命令を組み合わせることができ、いくつかの構成性を示す。
関連論文リスト
- SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Pretrained Generative Language Models as General Learning Frameworks for
Sequence-Based Tasks [0.0]
そこで本研究では,素小事前学習型生成言語モデルをシーケンスベースタスクの一般的な学習フレームワークとして利用することを提案する。
提案では,ニューラルネットワークと言語モデルをスクラッチからトレーニングする際の計算資源,スキルセット,タイムラインの課題を克服する。
125M,350M,1.3Bパラメータを事前学習した基礎言語モデルを1万から1000,000の命令例で微調整できることを実証した。
論文 参考訳(メタデータ) (2024-02-08T12:19:32Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - CALM: Continuous Adaptive Learning for Language Modeling [18.72860206714457]
自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。
これらの事前学習モデルが破滅的忘れという形で性能劣化を示すことを示す。
言語モデリングのための継続的適応学習CALM:複数のドメインにまたがる知識を保持するモデルをレンダリングする手法を提案する。
論文 参考訳(メタデータ) (2020-04-08T03:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。