論文の概要: ChatGPT for automated grading of short answer questions in mechanical ventilation
- arxiv url: http://arxiv.org/abs/2505.04645v1
- Date: Mon, 05 May 2025 19:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.601741
- Title: ChatGPT for automated grading of short answer questions in mechanical ventilation
- Title(参考訳): 機械換気における短時間回答質問の自動評価のためのChatGPT
- Authors: Tejas Jade, Alex Yartsev,
- Abstract要約: 大規模言語モデル(LLM)は会話言語をシミュレートし、構造化されていない自由テキスト応答を解釈する。
215名の学生のデータを用いて,ChatGPT 4o の評価を行い,SAQ の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standardised tests using short answer questions (SAQs) are common in postgraduate education. Large language models (LLMs) simulate conversational language and interpret unstructured free-text responses in ways aligning with applying SAQ grading rubrics, making them attractive for automated grading. We evaluated ChatGPT 4o to grade SAQs in a postgraduate medical setting using data from 215 students (557 short-answer responses) enrolled in an online course on mechanical ventilation (2020--2024). Deidentified responses to three case-based scenarios were presented to ChatGPT with a standardised grading prompt and rubric. Outputs were analysed using mixed-effects modelling, variance component analysis, intraclass correlation coefficients (ICCs), Cohen's kappa, Kendall's W, and Bland--Altman statistics. ChatGPT awarded systematically lower marks than human graders with a mean difference (bias) of -1.34 on a 10-point scale. ICC values indicated poor individual-level agreement (ICC1 = 0.086), and Cohen's kappa (-0.0786) suggested no meaningful agreement. Variance component analysis showed minimal variability among the five ChatGPT sessions (G-value = 0.87), indicating internal consistency but divergence from the human grader. The poorest agreement was observed for evaluative and analytic items, whereas checklist and prescriptive rubric items had less disagreement. We caution against the use of LLMs in grading postgraduate coursework. Over 60% of ChatGPT-assigned grades differed from human grades by more than acceptable boundaries for high-stakes assessments.
- Abstract(参考訳): 短期回答質問(SAQ)を用いた標準テストは、大学院教育において一般的である。
大規模言語モデル(LLM)は、会話言語をシミュレートし、SAQグレーディングルーブリックを適用した方法で構造化されていない自由テキスト応答を解釈する。
当科におけるChatGPT 4oを,機械的換気(2020-2024)のオンラインコースに登録された215名の学生(557名)のデータを用いて評価した。
3つのケースベースのシナリオに対して、標準化されたグレーディングプロンプトとルーリックを用いて、特定された応答をChatGPTに提示した。
結果は混合効果モデリング、分散成分分析、クラス内相関係数(ICC)、コーエンのカッパ、ケンドールのW、ブランド・アルトマン統計を用いて分析された。
ChatGPTは10点のスケールで平均差(バイアス)が-1.34である人より体系的に低いマークを付与した。
ICCの値は、個人レベルの合意(ICC1 = 0.086)が低いことを示し、コーエンのカッパ(-0.0786)は意味のある合意を示さなかった。
5回のChatGPTセッション(G-value = 0.87)において,内的整合性を示した。
最も貧弱な合意は評価項目と分析項目で見られたが、チェックリストと規範的ルーリック項目は一致しなかった。
卒後科目におけるLSMの使用に留意する。
ChatGPT指定の成績の60%以上は、高い評価のための許容範囲以上でヒトの成績と異なる。
関連論文リスト
- Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms [3.3543455244780223]
本稿では2つの新しい文脈を導入し、より堅牢な方法である複数のChatGPTスコアを平均化する。
平均的な30のChatGPT予測は、レビュアーガイドラインに基づいて、提出されたタイトルと要約のみを用いて、F1000Researchのピアレビュー結果の予測に失敗した。
論文 参考訳(メタデータ) (2024-11-14T19:20:33Z) - Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。
テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。
解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-06T04:41:13Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Distilling ChatGPT for Explainable Automated Student Answer Assessment [19.604476650824516]
本稿では,最先端の大規模言語モデルであるChatGPTを用いて,学生の回答スコアリングと合理性生成の同時タスクを探索する新しいフレームワークを提案する。
提案手法は,ChatGPTと比較してQWK全体のスコアを11%改善することを示した。
論文 参考訳(メタデータ) (2023-05-22T12:11:39Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。