論文の概要: Co-training Improves Prompt-based Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2202.00828v1
- Date: Wed, 2 Feb 2022 00:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:54:35.107151
- Title: Co-training Improves Prompt-based Learning for Large Language Models
- Title(参考訳): 大規模言語モデルのためのPromptベースの学習を改善するコトレーニング
- Authors: Hunter Lang, Monica Agrawal, Yoon Kim, David Sontag
- Abstract要約: 本研究では、ラベルなしデータを用いて、協調学習がプロンプトベース学習の性能を向上させることを実証する。
協調学習により、元のプロンプトモデルを改善することができ、同時に、より小さく、ダウンストリームなタスク固有モデルを学ぶことができる。
- 参考スコア(独自算出の注目度): 17.37761261683756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that co-training (Blum & Mitchell, 1998) can improve the
performance of prompt-based learning by using unlabeled data. While prompting
has emerged as a promising paradigm for few-shot and zero-shot learning, it is
often brittle and requires much larger models compared to the standard
supervised setup. We find that co-training makes it possible to improve the
original prompt model and at the same time learn a smaller, downstream
task-specific model. In the case where we only have partial access to a prompt
model (e.g., output probabilities from GPT-3 (Brown et al., 2020)) we learn a
calibration model over the prompt outputs. When we have full access to the
prompt model's gradients but full finetuning remains prohibitively expensive
(e.g., T0 (Sanh et al., 2021)), we learn a set of soft prompt continuous
vectors to iteratively update the prompt model. We find that models trained in
this manner can significantly improve performance on challenging datasets where
there is currently a large gap between prompt-based learning and
fully-supervised models.
- Abstract(参考訳): 共同学習(blum & mitchell, 1998)がラベルなしデータを用いて,プロンプトベース学習の性能を向上させることを実証する。
プロンプトは、少数およびゼロショット学習の有望なパラダイムとして現れてきたが、しばしば脆く、標準的な教師付きセットアップよりもずっと大きなモデルを必要とする。
協調学習により、元のプロンプトモデルを改善することができ、同時により小さく、ダウンストリームなタスク固有モデルを学ぶことができる。
プロンプトモデル(例えば GPT-3 (Brown et al., 2020) からの出力確率)に部分的にしかアクセスできない場合には、プロンプト出力に関するキャリブレーションモデルを学ぶ。
プロンプトモデルの勾配に完全にアクセスできるが、完全な微調整は違法に高価である(例: T0 (Sanh et al., 2021))とき、プロンプトモデルを反復的に更新するソフトプロンプト連続ベクトルの集合を学ぶ。
この方法でトレーニングされたモデルは、現在プロンプトベースの学習と完全な教師付きモデルの間に大きなギャップがある、挑戦的なデータセットのパフォーマンスを大幅に向上することができることが分かりました。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - RPLKG: Robust Prompt Learning with Knowledge Graph [11.893917358053004]
知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。
知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。
RPLKGはゼロショット学習に比べてパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-04-21T08:22:58Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - Few-Shot Lifelong Learning [35.05196800623617]
Few-Shot Lifelong Learningにより、深層学習モデルが短距離/連続学習を実行できます。
提案手法では,モデルからごく少数のパラメータを選択して,モデル全体をトレーニングする代わりに,新しいクラスのセットをトレーニングする。
提案手法は, miniImageNet, CIFAR-100, CUB-200データセットにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-01T13:26:57Z) - When Attention Meets Fast Recurrence: Training Language Models with
Reduced Compute [7.8495640617618365]
我々は、最先端のモデリング能力とトレーニング効率を示す、オプションで組み込まれた繰り返しユニットであるSRU++を紹介する。
本モデルは, 2.5x-10倍のトレーニング時間とコストをトップパフォーマンストランスフォーマモデルと比較し, 高いパープレキシティとbpc(bits-per-character)を得る。
論文 参考訳(メタデータ) (2021-02-24T18:39:56Z) - Do We Really Need Deep Learning Models for Time Series Forecasting? [4.2698418800007865]
時系列予測は、幅広い応用があるため、機械学習において重要なタスクである。
ディープラーニングとマトリックスファクタリゼーションモデルは、より競争力のあるパフォーマンスで同じ問題に取り組むために最近提案されている。
本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。
論文 参考訳(メタデータ) (2021-01-06T16:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。