論文の概要: Entailment as Few-Shot Learner
- arxiv url: http://arxiv.org/abs/2104.14690v1
- Date: Thu, 29 Apr 2021 22:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:53:02.947308
- Title: Entailment as Few-Shot Learner
- Title(参考訳): ファウショット学習者としてのエンターテイメント
- Authors: Sinong Wang, Han Fang, Madian Khabsa, Hanzi Mao, Hao Ma
- Abstract要約: プリトレーニング済みの小さな言語モデルを、より優れた少人数学習者に変える新しいアプローチを提案します。
このアプローチの重要なアイデアは、潜在的なNLPタスクをインクリメントに改質し、モデルをわずか8つの例で微調整することです。
18の標準NLPタスクの体系的評価は、このアプローチが既存のSOTA数ショット学習手法を12%改善し、500倍のモデルで競合的な数ショット性能が得られることを示している。
- 参考スコア(独自算出の注目度): 20.735607122810613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models (LMs) have demonstrated remarkable ability
as few-shot learners. However, their success hinges largely on scaling model
parameters to a degree that makes it challenging to train and serve. In this
paper, we propose a new approach, named as EFL, that can turn small LMs into
better few-shot learners. The key idea of this approach is to reformulate
potential NLP task into an entailment one, and then fine-tune the model with as
little as 8 examples. We further demonstrate our proposed method can be: (i)
naturally combined with an unsupervised contrastive learning-based data
augmentation method; (ii) easily extended to multilingual few-shot learning. A
systematic evaluation on 18 standard NLP tasks demonstrates that this approach
improves the various existing SOTA few-shot learning methods by 12\%, and
yields competitive few-shot performance with 500 times larger models, such as
GPT-3.
- Abstract(参考訳): 大規模な事前学習言語モデル (LM) は、数発の学習者として顕著な能力を示している。
しかし、その成功はモデルパラメータのスケーリングに大きく依存しており、トレーニングとサービスの提供が難しくなっています。
本稿では,小さなLMをより優れた少人数の学習者に変えるための新しいアプローチであるEFLを提案する。
このアプローチの鍵となる考え方は、潜在的NLPタスクをentailmentタスクに再構成し、モデルを8つの例で微調整することである。
提案手法は, (i) 教師なしのコントラスト学習に基づくデータ拡張法と自然に組み合わされ, (ii) 多言語限定学習に容易に拡張できることを示す。
18 の標準 NLP タスクの体系的評価は,既存の SOTA 数ショット学習手法を 12 % 改善し,GPT-3 などの500 倍のモデルで競合的な数ショット性能が得られることを示す。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。