論文の概要: Calibrate Before Use: Improving Few-Shot Performance of Language Models
- arxiv url: http://arxiv.org/abs/2102.09690v1
- Date: Fri, 19 Feb 2021 00:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:39:06.555723
- Title: Calibrate Before Use: Improving Few-Shot Performance of Language Models
- Title(参考訳): 使用前のCalibrate: 言語モデルの性能向上
- Authors: Tony Z. Zhao, Eric Wallace, Shi Feng, Dan Klein, Sameer Singh
- Abstract要約: GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
- 参考スコア(独自算出の注目度): 68.17016463756474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT-3 can perform numerous tasks when provided a natural language prompt that
contains a few training examples. We show that this type of few-shot learning
can be unstable: the choice of prompt format, training examples, and even the
order of the training examples can cause accuracy to vary from near chance to
near state-of-the-art. We demonstrate that this instability arises from the
bias of language models towards predicting certain answers, e.g., those that
are placed near the end of the prompt or are common in the pre-training data.
To mitigate this, we first estimate the model's bias towards each answer by
asking for its prediction when given the training prompt and a content-free
test input such as "N/A". We then fit calibration parameters that cause the
prediction for this input to be uniform across answers. On a diverse set of
tasks, this contextual calibration procedure substantially improves GPT-3 and
GPT-2's average accuracy (up to 30.0% absolute) and reduces variance across
different choices of the prompt.
- Abstract(参考訳): GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
プロンプトフォーマットの選択、トレーニング例の選択、トレーニング例の順序などによって、ほぼ偶然から最先端まで、正確性が変化する可能性がある。
この不安定性は言語モデルの偏りから、例えば、プロンプトの終わり近くに置かれたり、事前学習データで一般的であるような、特定の回答を予測することに起因する。
これを軽減するために、まずトレーニングプロンプトと「N/A」などのコンテンツフリーテスト入力を与えられたときに予測を求め、各回答に対するモデルのバイアスを推定します。
次に、この入力の予測を解答全体で均一にするキャリブレーションパラメータを適合させる。
多様なタスクセットにおいて、このコンテキストキャリブレーション手順は、GPT-3とGPT-2の平均精度(最大30.0%まで)を大幅に改善し、プロンプトの異なる選択間のばらつきを低減する。
関連論文リスト
- Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot
Classification [20.85088711770188]
ラベル付きデータを追加せずに即時学習を改善することができることを示す。
組込み関数の異なるデータセットの複数の表現を演算するEmbroidを提案する。
Embroidはオリジナルのプロンプトよりも性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:07:28Z) - Unsupervised Calibration through Prior Adaptation for Text
Classification using Large Language Models [37.39843935632105]
ラベル付きサンプルを必要とせずにテキスト分類タスクを実行するために,先行クラス分布に適応する手法を提案する。
その結果,これらの手法は,プロンプト内の訓練ショット数が異なる場合,適応しないモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-13T12:11:36Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。