論文の概要: Meta-tuning Language Models to Answer Prompts Better
- arxiv url: http://arxiv.org/abs/2104.04670v1
- Date: Sat, 10 Apr 2021 02:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 07:26:20.760350
- Title: Meta-tuning Language Models to Answer Prompts Better
- Title(参考訳): プロンプトを改善するメタチューニング言語モデル
- Authors: Ruiqi Zhong, Kristy Lee, Zheng Zhang, Dan Klein
- Abstract要約: GPT-3のような大規模事前訓練言語モデルは、ゼロショット分類(ZSC)を実行する驚くべき能力を獲得した
提案するメタチューニングは,応答プロンプトに特化するようにモデルをトレーニングするが,未知のタスクに一般化する。
メタチューニングの後、私たちのモデルは、見えないタスクのほとんどのラベルで同じサイズのQAモデルよりも優れています。
- 参考スコア(独自算出の注目度): 35.71265221884353
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large pretrained language models like GPT-3 have acquired a surprising
ability to perform zero-shot classification (ZSC). For example, to classify
review sentiments, we can "prompt" the language model with the review and the
question "Is the review positive?" as the context, and ask it to predict
whether the next word is "Yes" or "No". However, these models are not
specialized for answering these prompts. To address this weakness, we propose
meta-tuning, which trains the model to specialize in answering prompts but
still generalize to unseen tasks. To create the training data, we aggregated 43
existing datasets, annotated 441 label descriptions in total, and unified them
into the above question answering (QA) format. After meta-tuning, our model
outperforms a same-sized QA model for most labels on unseen tasks, and we
forecast that the performance would improve for even larger models. Therefore,
measuring ZSC performance on non-specialized language models might
underestimate their true capability, and community-wide efforts on aggregating
datasets and unifying their formats can help build models that understand
prompts better.
- Abstract(参考訳): GPT-3のような大規模な事前訓練された言語モデルは、ゼロショット分類(ZSC)を実行する驚くべき能力を得た。
例えば、レビューの感情を分類するには、レビューで言語モデルを"プロンプト"することができ、"レビューはポジティブか?
文脈として、次の単語が "Yes" か "No" かを予測するように求めます。
しかし、これらのモデルはこれらのプロンプトへの応答に特化していない。
この弱点に対処するために、我々はモデルにプロンプトへの応答を専門に訓練するが、それでも見当たらないタスクに一般化するメタチューニングを提案する。
トレーニングデータを作成するために、43の既存のデータセットを集約し、合計441のラベル記述を注釈付けし、上記の質問応答(QA)フォーマットにまとめました。
メタチューニング後、我々のモデルは、目に見えないタスクでほとんどのラベルに対して同じ大きさのQAモデルより優れており、さらに大きなモデルでは性能が向上すると予想する。
したがって、非特殊化言語モデル上でのZSCパフォーマンスの測定は、その真の能力を過小評価する可能性があり、データセットを集約し、フォーマットを統一するというコミュニティ全体の取り組みは、プロンプトをよりよく理解するモデルを構築するのに役立つ。
関連論文リスト
- The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - Prompting-based Synthetic Data Generation for Few-Shot Question Answering [23.97949073816028]
大規模言語モデルを用いることで,複数データセットにおける質問応答性能が向上することを示す。
言語モデルには、一般的な事前学習/微調整スキームを超えて使える貴重なタスク非依存の知識が含まれていることを示唆する。
論文 参考訳(メタデータ) (2024-05-15T13:36:43Z) - Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。
これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文 参考訳(メタデータ) (2024-05-15T11:55:14Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文 参考訳(メタデータ) (2022-03-09T22:57:15Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。