論文の概要: What Makes Pre-trained Language Models Better Zero/Few-shot Learners?
- arxiv url: http://arxiv.org/abs/2209.15206v1
- Date: Fri, 30 Sep 2022 03:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:23:03.238503
- Title: What Makes Pre-trained Language Models Better Zero/Few-shot Learners?
- Title(参考訳): 事前学習された言語モデルがゼロ/フェーショット学習者に役立つ理由
- Authors: Jinghui Lu, Rui Zhao, Brian Mac Namee, Dongsheng Zhu, Weidong Han, Fei
Tan
- Abstract要約: 本稿では,ゼロ/ファウショットシナリオにおける即時学習の有効性を説明する理論的枠組みを提案する。
従来の事前学習および微調整のパラダイムは、表現できないラベル付きデータに過度に適合するため、いくつかのシナリオで失敗する。
次に,大量のテキストコーパス上に構築された事前学習言語モデルを活用することにより,迅速な学習がより効果的であるという仮定を詳述する。
- 参考スコア(独自算出の注目度): 12.164678440185007
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we propose a theoretical framework to explain the efficacy of
prompt learning in zero/few-shot scenarios. First, we prove that conventional
pre-training and fine-tuning paradigm fails in few-shot scenarios due to
overfitting the unrepresentative labelled data. We then detail the assumption
that prompt learning is more effective because it empowers pre-trained language
model that is built upon massive text corpora, as well as domain-related human
knowledge to participate more in prediction and thereby reduces the impact of
limited label information provided by the small training set. We further
hypothesize that language discrepancy can measure the quality of prompting.
Comprehensive experiments are performed to verify our assumptions. More
remarkably, inspired by the theoretical framework, we propose an
annotation-agnostic template selection method based on perplexity, which
enables us to ``forecast'' the prompting performance in advance. This approach
is especially encouraging because existing work still relies on development set
to post-hoc evaluate templates. Experiments show that this method leads to
significant prediction benefits compared to state-of-the-art zero-shot methods.
- Abstract(参考訳): 本稿では,ゼロ/ファウショットシナリオにおける即時学習の有効性を説明する理論的枠組みを提案する。
まず、従来の事前学習および微調整のパラダイムは、表現できないラベル付きデータに過度に適合するため、少数のシナリオで失敗することを証明する。
そこで本研究では,大量のテキストコーパス上に構築された事前学習言語モデルと,ドメイン関連の人的知識を活用して予測にもっと参加し,小さなトレーニングセットによって提供される限定ラベル情報の影響を低減することにより,迅速な学習がより効果的であるという仮定を詳述する。
さらに、言語不一致がプロンプトの質を測定することができると仮定する。
仮定を検証するために包括的な実験が行われる。
さらに,理論的な枠組みに触発されて,パープレキシティに基づくアノテーションに依存しないテンプレート選択手法を提案する。
既存の作業は、まだテンプレートを評価するために開発セットに依存しているため、このアプローチは特に奨励されます。
実験により、この手法は最先端のゼロショット法に比べて大きな予測効果をもたらすことが示された。
関連論文リスト
- Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Pre-trained Language Models Can be Fully Zero-Shot Learners [26.60008734311909]
完全ゼロショット言語理解のための非パラメトリックプロンプト PLM (NPPrompt) を提案する。
NPPromptは事前訓練された言語モデルのみを使用し、さらなる微調整のためにラベル付きデータや追加の生コーパスを必要としない。
NPPromptは,従来の多種多様なNLPタスクにおける複数ショットとゼロショットの学習手法と比較して評価する。
論文 参考訳(メタデータ) (2022-12-14T00:03:52Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Don't Prompt, Search! Mining-based Zero-Shot Learning with Language
Models [37.8952605358518]
BERTのようなマスキング言語モデルはゼロショット方式でテキスト分類を行うことができる。
ゼロショット学習のための代替的なマイニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T15:52:30Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Eliciting Knowledge from Pretrained Language Models for Prototypical
Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。
ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。
数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文 参考訳(メタデータ) (2022-01-14T12:04:37Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。