論文の概要: Guess the Instruction! Flipped Learning Makes Language Models Stronger
Zero-Shot Learners
- arxiv url: http://arxiv.org/abs/2210.02969v4
- Date: Tue, 6 Jun 2023 11:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:44:16.672874
- Title: Guess the Instruction! Flipped Learning Makes Language Models Stronger
Zero-Shot Learners
- Title(参考訳): Guess the Instruction!
Flipped Learningは、ゼロショット学習者より言語モデルを強くする
- Authors: Seonghyeon Ye, Doyoung Kim, Joel Jang, Joongbo Shin, Minjoon Seo
- Abstract要約: メタトレーニングは、様々な下流タスクで言語モデル(LM)を微調整する。
Flipped Learningは、入力インスタンスとラベルが与えられたタスク命令を生成するためにLMを訓練する。
BIGベンチマークの14のタスクでは、11BサイズのFlippedはゼロショットのT0-11B、さらに16倍の3ショットのGPT-3 (175B)を平均で上回っている。
- 参考スコア(独自算出の注目度): 26.612759764193758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-training, which fine-tunes the language model (LM) on various downstream
tasks by maximizing the likelihood of the target label given the task
instruction and input instance, has improved the zero-shot task generalization
performance. However, meta-trained LMs still struggle to generalize to
challenging tasks containing novel labels unseen during meta-training. In this
paper, we propose Flipped Learning, an alternative method of meta-training
which trains the LM to generate the task instruction given the input instance
and label. During inference, the LM trained with Flipped Learning, referred to
as Flipped, selects the label option that is most likely to generate the task
instruction. On 14 tasks of the BIG-bench benchmark, the 11B-sized Flipped
outperforms zero-shot T0-11B and even a 16 times larger 3-shot GPT-3 (175B) on
average by 8.4% and 9.7% points, respectively. Flipped gives particularly large
improvements on tasks with unseen labels, outperforming T0-11B by up to +20%
average F1 score. This indicates that the strong task generalization of Flipped
comes from improved generalization to novel labels. We release our code at
https://github.com/seonghyeonye/Flipped-Learning.
- Abstract(参考訳): タスク命令と入力インスタンスが与えられたターゲットラベルの確率を最大化することにより、様々な下流タスクの言語モデル(LM)を微調整するメタトレーニングにより、ゼロショットタスクの一般化性能が向上した。
しかし、メタトレーニング中の新規ラベルを含む課題タスクへの一般化に苦慮している。
本稿では,入力インスタンスとラベルを与えられたタスク命令を生成するためにlmを訓練するメタトレーニングの代替手法であるflipped learningを提案する。
推論中、Flipped Learningと呼ばれるFlipped Learningで訓練されたLMは、タスク命令を生成する可能性が最も高いラベルオプションを選択する。
BIGベンチマークの14のタスクでは、11BサイズのFlippedはゼロショットのT0-11Bと16倍のGPT-3 (175B)をそれぞれ平均8.4%、9.7%で上回っている。
Flippedは、目に見えないラベルを持つタスクにおいて特に大きな改善をもたらし、T0-11Bを最大で20%のスコアで上回っている。
これは、Flippedの強いタスク一般化は、新しいラベルへの一般化の改善に由来することを示している。
私たちはコードをhttps://github.com/seonghyeonye/flipped-learningでリリースします。
関連論文リスト
- Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models [0.0]
混合コード低リソース言語におけるヘイトスピーチ検出は、大規模言語モデルの使用が有益であることが証明された活発な問題領域である。
そこで本研究では,100件のYouTubeコメントのデータセットを作成した。
すべてのアプローチにおいて、双方向自動回帰変換器(BART)を用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
論文 参考訳(メタデータ) (2024-03-04T15:27:49Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Understanding and Improving Visual Prompting: A Label-Mapping
Perspective [63.89295305670113]
我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。
ILM-VPと呼ばれる新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マップする。
提案手法は最先端のVP法よりも優れている。
論文 参考訳(メタデータ) (2022-11-21T16:49:47Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Meta-learning for Few-shot Natural Language Processing: A Survey [10.396506243272158]
Few-shot Natural Language Processing (NLP) は、ラベル付き例のごく一部に付随するNLPタスクを指す。
本稿では,NLP領域,特に少数ショットアプリケーションに焦点をあてる。
メタラーニングを数ショットNLPに適用する際の、より明確な定義、進捗の概要、一般的なデータセットを提供しようとしている。
論文 参考訳(メタデータ) (2020-07-19T06:36:41Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。