論文の概要: Improving Short Text Classification With Augmented Data Using GPT-3
- arxiv url: http://arxiv.org/abs/2205.10981v1
- Date: Mon, 23 May 2022 01:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 14:28:37.328124
- Title: Improving Short Text Classification With Augmented Data Using GPT-3
- Title(参考訳): GPT-3を用いた拡張データによる短いテキスト分類の改善
- Authors: Salvador Balkus and Donghui Yan
- Abstract要約: GPT-3はOpenAIが開発した大規模自然言語モデルである。
本研究は, GPT-3を用いて, 質問がデータサイエンスに関係しているかどうかを, 追加例で小さなトレーニングセットを増補することにより分類する。
拡張コンプリートは80%以上の精度を達成できるが、拡張分類を用いることで、目に見えない例ではより一貫した精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPT-3 is a large-scale natural language model developed by OpenAI that can
perform many different tasks, including topic classification. Although
researchers claim that it requires only a small number of in-context examples
to learn a task, in practice GPT-3 requires these training examples to be
either of exceptional quality or a higher quantity than easily created by hand.
To address this issue, this study teaches GPT-3 to classify whether a question
is related to data science by augmenting a small training set with additional
examples generated by GPT-3 itself. This study compares two classifiers: the
GPT-3 Classification Endpoint with augmented examples, and the GPT-3 Completion
Endpoint with an optimal training set chosen using a genetic algorithm. We find
that while the augmented Completion Endpoint achieves upwards of 80 percent
validation accuracy, using the augmented Classification Endpoint yields more
consistent accuracy on unseen examples. In this way, giving large-scale machine
learning models like GPT-3 the ability to propose their own additional training
examples can result in improved classification performance.
- Abstract(参考訳): GPT-3はOpenAIが開発した大規模自然言語モデルであり、トピック分類を含む様々なタスクを実行できる。
研究者は、タスクを学ぶのに少量の文脈内サンプルしか必要としないと主張しているが、実際には、GPT-3はこれらのトレーニング例を、手作業で簡単に作成するよりも、例外的な品質か高い量のいずれかでなければならない。
この問題に対処するために,本研究では,GPT-3自体が生成する追加の例を加味した小さなトレーニングセットを増設することにより,データサイエンスに関連する疑問を分類するようにGPT-3に教える。
本研究は,GAT-3分類終点と拡張例,GAT-3補完終点と遺伝的アルゴリズムを用いて選択した最適トレーニングセットの2つの分類器を比較した。
拡張補完エンドポイントは80%以上の検証精度を達成するが、拡張分類エンドポイントを使用することで、目に見えない例ではより一貫性のある精度が得られる。
このようにして、GPT-3のような大規模機械学習モデルに独自のトレーニング例を提案する能力を与えると、分類性能が向上する。
関連論文リスト
- Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - Is GPT-3 a Good Data Annotator? [30.9559541574174]
GPT-3はOpenAIが開発した大規模言語モデルである。
本稿では,データアノテータとしてのGPT-3の性能を評価する。
論文 参考訳(メタデータ) (2022-12-20T17:28:41Z) - Thinking about GPT-3 In-Context Learning for Biomedical IE? Think Again [24.150464908060112]
本研究は,GPT-3のテキスト内学習を小型(BERTサイズ)PLMと比較した最初の体系的,包括的研究である。
以上の結果から, GPT-3 は, 小型 PLM の微調整に比べてまだ性能が劣っていることが示唆された。
論文 参考訳(メタデータ) (2022-03-16T05:56:08Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。