論文の概要: Fine-tuning ChatGPT for Automatic Scoring
- arxiv url: http://arxiv.org/abs/2310.10072v3
- Date: Tue, 26 Dec 2023 01:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:42:53.119463
- Title: Fine-tuning ChatGPT for Automatic Scoring
- Title(参考訳): 自動スコーリングのための微調整ChatGPT
- Authors: Ehsan Latif and Xiaoming Zhai
- Abstract要約: 本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
- 参考スコア(独自算出の注目度): 1.4833692070415454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study highlights the potential of fine-tuned ChatGPT (GPT-3.5) for
automatically scoring student written constructed responses using example
assessment tasks in science education. Recent studies on OpenAI's generative
model GPT-3.5 proved its superiority in predicting the natural language with
high accuracy and human-like responses. GPT-3.5 has been trained over enormous
online language materials such as journals and Wikipedia; therefore, more than
direct usage of pre-trained GPT-3.5 is required for automatic scoring as
students utilize a different language than trained material. These imply that a
domain-specific model, fine-tuned over data for specific tasks, can enhance
model performance. In this study, we fine-tuned GPT-3.5 on six assessment tasks
with a diverse dataset of middle-school and high-school student responses and
expert scoring. The six tasks comprise two multi-label and four multi-class
assessment tasks. We compare the performance of fine-tuned GPT-3.5 with the
fine-tuned state-of-the-art Google's generated language model, BERT. The
results show that in-domain training corpora constructed from science questions
and responses for BERT achieved average accuracy = 0.838, SD = 0.069. GPT-3.5
shows a remarkable average increase (9.1%) in automatic scoring accuracy (mean
= 9.15, SD = 0.042) for the six tasks, p =0.001 < 0.05. Specifically, for
multi-label tasks (item 1 with 5 labels; item 2 with 10 labels), GPT-3.5
achieved significantly higher scoring accuracy than BERT across all the labels,
with the second item achieving a 7.1% increase. The average scoring increase
for the four multi-class items for GPT-3.5 was 10.6% compared to BERT. Our
study confirmed the effectiveness of fine-tuned GPT-3.5 for automatic scoring
of student responses on domain-specific data in education with high accuracy.
We have released fine-tuned models for public use and community engagement.
- Abstract(参考訳): 本研究は,理科教育における事例評価タスクを用いて,構築された回答を自動的に評価するための微調整ChatGPT (GPT-3.5) の可能性を明らかにする。
OpenAIの生成モデルであるGPT-3.5の最近の研究は、高い精度と人間的な応答で自然言語を予測する上で、その優位性を証明した。
GPT-3.5は、雑誌やウィキペディアなどの膨大なオンライン言語教材で訓練されているため、学生がトレーニングされた資料とは異なる言語を使用するため、事前学習されたGPT-3.5を直接使用する以上のことが自動スコアリングに必要である。
これらは、特定のタスクのためにデータを微調整したドメイン固有モデルが、モデルパフォーマンスを向上させることを意味する。
本研究では,中高生の回答とエキスパートスコアの多様なデータセットを用いた6つの評価課題について,gpt-3.5を微調整した。
6つのタスクは、2つのマルチラベルと4つのマルチクラスアセスメントタスクで構成される。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
その結果、bertに対する科学的な質問と回答から構築されたドメイン内トレーニングコーパスは平均精度が0.838, sd = 0.069であった。
GPT-3.5は6つのタスクにおいて、自動スコアの精度(平均=9.15、SD=0.042)が顕著な平均値(9.1%)を示し、p =0.001 < 0.05である。
具体的には、マルチラベルタスク(5ラベルのitem 1、10ラベルのitem 2)において、gpt-3.5は全ラベルのbertよりもスコアリング精度が著しく向上し、第2の項目は7.1%増加した。
GPT-3.5の4種類の項目の平均得点率はBERTに比べて10.6%増加した。
本研究は,高精細なGPT-3.5の学習におけるドメイン固有データの自動評価における有効性を確認した。
パブリック利用とコミュニティエンゲージメントのための微調整されたモデルをリリースしました。
関連論文リスト
- Applying Large Language Models and Chain-of-Thought for Automatic
Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文 参考訳(メタデータ) (2023-11-30T21:22:43Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.6278186810520364]
生成型大規模言語モデルであるGPT-4を用いた新しいテキストデータ拡張フレームワークを提案する。
我々は,GPT-4が学生の回答に類似した応答を生成するためのプロンプトを作成し,特にマイノリティスコアリングクラスについて検討した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Improving Short Text Classification With Augmented Data Using GPT-3 [0.0]
GPT-3はOpenAIが開発した大規模自然言語モデルである。
本研究は, GPT-3を用いて, 質問がデータサイエンスに関係しているかどうかを, 追加例で小さなトレーニングセットを増補することにより分類する。
拡張コンプリートは80%以上の精度を達成できるが、拡張分類を用いることで、目に見えない例ではより一貫した精度が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-23T01:10:38Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。