論文の概要: Distilling ChatGPT for Explainable Automated Student Answer Assessment
- arxiv url: http://arxiv.org/abs/2305.12962v1
- Date: Mon, 22 May 2023 12:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:24:05.286193
- Title: Distilling ChatGPT for Explainable Automated Student Answer Assessment
- Title(参考訳): chatgptを蒸留して自動解答評価を行う
- Authors: Jiazheng Li, Lin Gui, Yuxiang Zhou, David West, Cesare Aloisi, Yulan
He
- Abstract要約: 本稿では,最先端の大規模言語モデルであるChatGPTを用いて,学生の回答スコアリングと合理性生成の同時処理について検討する。
本稿では,ChatGPTからの誤り出力を自動的にフィルタし,残りのChtaGPT出力をノイズラベル付きデータとして利用する批評家モジュールを提案する。
実験の結果,ChatGPTより数桁小さいにもかかわらず,微調整された言語モデルでは,学生の回答スコアの精度が向上することが示された。
- 参考スコア(独自算出の注目度): 26.589756642515788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing student answers and providing valuable feedback is crucial for
effective learning, but it can be a time-consuming task. Traditional methods of
automating student answer assessment through text classification often suffer
from issues such as lack of trustworthiness, transparency, and the ability to
provide a rationale for the automated assessment process. These limitations
hinder their usefulness in practice. In this paper, we explore using ChatGPT, a
cutting-edge large language model, for the concurrent tasks of student answer
scoring and rationale generation under both the zero-shot and few-shot
settings. We introduce a critic module which automatically filters incorrect
outputs from ChatGPT and utilizes the remaining ChtaGPT outputs as noisy
labelled data to fine-tune a smaller language model, enabling it to perform
student answer scoring and rationale generation. Moreover, by drawing multiple
samples from ChatGPT outputs, we are able to compute predictive confidence
scores, which in turn can be used to identify corrupted data and human label
errors in the training set. Our experimental results demonstrate that despite
being a few orders of magnitude smaller than ChatGPT, the fine-tuned language
model achieves better performance in student answer scoring. Furthermore, it
generates more detailed and comprehensible assessments than traditional text
classification methods. Our approach provides a viable solution to achieve
explainable automated assessment in education.
- Abstract(参考訳): 学生の回答を評価し、価値あるフィードバックを提供することは効果的な学習には不可欠だが、時間を要する作業である。
テキスト分類による学生回答評価を自動化する従来の方法は、信頼性の欠如、透明性、自動評価プロセスの理論的根拠を提供する能力といった問題に苦しむことが多い。
これらの制限は実践上の有用性を妨げている。
本稿では,最先端の大規模言語モデルであるChatGPTを用いて,ゼロショット設定と少数ショット設定の両方で,学生回答スコアリングと合理化生成の同時タスクについて検討する。
本稿では,ChatGPTからの誤出力を自動的にフィルタリングし,残りのChtaGPT出力をノイズ付きラベル付きデータとして利用して,より小さな言語モデルを微調整し,学生の回答スコアリングと合理性生成を可能にする批評家モジュールを提案する。
さらに、chatgpt出力から複数のサンプルを描画することで、予測信頼度スコアを計算でき、それによって、トレーニングセット内の破損したデータと人間のラベルエラーを識別できる。
実験の結果,chatgptより数桁小さいが,微調整された言語モデルは,学生の回答スコアが向上することが示された。
さらに、従来のテキスト分類法よりも詳細で理解しやすい評価を生成する。
このアプローチは,教育における説明可能な自動評価を実現するための有効なソリューションを提供する。
関連論文リスト
- AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment [12.970776782360366]
AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。
ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-12T11:57:53Z) - Using ChatGPT to Score Essays and Short-Form Constructed Responses [0.0]
線形回帰、ランダム森林、勾配上昇、隆起など、様々な予測モデルに焦点をあてた調査。
2次重み付きカッパ(QWK)測定値を用いてChatGPTの性能評価を行った。
研究は、ChatGPTは人間のスコアを補完するが、高い評価を得るためにはさらなる開発が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-08-18T16:51:28Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries
Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。
自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:28:33Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。