論文の概要: Using Large Language Models for Automated Grading of Student Writing about Science
- arxiv url: http://arxiv.org/abs/2412.18719v1
- Date: Wed, 25 Dec 2024 00:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:13.151046
- Title: Using Large Language Models for Automated Grading of Student Writing about Science
- Title(参考訳): 大規模言語モデルを用いた学生の理科文章自動筆記法
- Authors: Chris Impey, Matthew Wenger, Nikhil Garuda, Shahriar Golchin, Sarah Stamer,
- Abstract要約: AIは、学生の文章を評価するために大きな言語モデル(LLM)を使用する可能性を導入した。
GPT-4を用いてLLMに基づく機械学習手法がインストラクターグレーティングの信頼性に適合するか否かを判定する実験を行った。
結果はまた、評価内容とモードが類似している大学環境での非科学専攻にも適用されるべきである。
- 参考スコア(独自算出の注目度): 2.883578416080909
- License:
- Abstract: Assessing writing in large classes for formal or informal learners presents a significant challenge. Consequently, most large classes, particularly in science, rely on objective assessment tools such as multiple-choice quizzes, which have a single correct answer. The rapid development of AI has introduced the possibility of using large language models (LLMs) to evaluate student writing. An experiment was conducted using GPT-4 to determine if machine learning methods based on LLMs can match or exceed the reliability of instructor grading in evaluating short writing assignments on topics in astronomy. The audience consisted of adult learners in three massive open online courses (MOOCs) offered through Coursera. One course was on astronomy, the second was on astrobiology, and the third was on the history and philosophy of astronomy. The results should also be applicable to non-science majors in university settings, where the content and modes of evaluation are similar. The data comprised answers from 120 students to 12 questions across the three courses. GPT-4 was provided with total grades, model answers, and rubrics from an instructor for all three courses. In addition to evaluating how reliably the LLM reproduced instructor grades, the LLM was also tasked with generating its own rubrics. Overall, the LLM was more reliable than peer grading, both in aggregate and by individual student, and approximately matched instructor grades for all three online courses. The implication is that LLMs may soon be used for automated, reliable, and scalable grading of student science writing.
- Abstract(参考訳): 形式的あるいは非公式な学習者のための大規模クラスでの執筆評価は重要な課題である。
その結果、特に科学におけるほとんどの大きなクラスは、単一の正しい答えを持つ多重選択クイズのような客観的評価ツールに依存している。
AIの急速な開発により、学生の文章を評価するために大きな言語モデル(LLM)が利用可能になった。
GPT-4を用いて、LLMに基づく機械学習手法が天文学におけるトピックの短い書き方の評価において、インストラクターグレーティングの信頼性にマッチするか、超えるかを判定する実験を行った。
参加者は、Courseraを通じて提供される3つの大規模オープンオンラインコース(MOOC)の成人学習者で構成された。
1コースは天文学、もう1コースは天文学、もう1コースは天文学、もう1コースは天文学の歴史と哲学であった。
結果はまた、評価内容とモードが類似している大学環境での非科学専攻にも適用されるべきである。
データには、120人の学生から12の質問への回答が3つのコースに含まれていた。
GPT-4は、全3コースのインストラクターの総合成績、モデル回答、ルーブリックを備えていた。
LLMがインストラクターの成績をいかに確実に再現したかを評価することに加えて、LLMは独自のルーリックの生成も担当した。
総じて、LLMは、総合的および個別の学生によるピアグレーティングよりも信頼性が高く、3つのオンラインコースすべてでほぼ一致したインストラクターの成績であった。
LLMはすぐに、学生科学書記の自動化、信頼性、スケーラブルなグレーディングに使用されるかもしれない。
関連論文リスト
- Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Grading Massive Open Online Courses Using Large Language Models [3.0936354370614607]
大規模なオープンオンラインコース(MOOC)は、世界中で無料の教育を提供している。
ピアグレーディング(Peergrading)は、しばしば直感的なルーリックによって導かれるもので、選択の方法である。
大規模言語モデル(LLM)を用いてMOOCのピアグレーディングを置き換えることの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-06-16T23:42:11Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - CourseAssist: Pedagogically Appropriate AI Tutor for Computer Science Education [1.052788652996288]
このポスターでは、コンピュータサイエンス教育用に作られた新しいLLMベースのチューターシステムであるCourseAssistを紹介している。
一般的なLLMシステムとは異なり、CourseAssistは検索強化生成、ユーザ意図分類、質問分解を使用して、AI応答を特定のコース材料や学習目標と整合させる。
論文 参考訳(メタデータ) (2024-05-01T20:43:06Z) - CS1-LLM: Integrating LLMs into CS1 Instruction [0.6282171844772422]
本経験報告では,大規模言語モデルを完全に取り入れた大規模大学におけるCS1コースについて述べる。
LLMを組み込むため、コースは意図的に変更され、シンタックスやコードの記述がスクラッチから強調されるようになった。
学生は3つの異なる領域に3つの大きなオープンエンドプロジェクトを与えられ、彼らの創造性を誇示した。
論文 参考訳(メタデータ) (2024-04-17T14:44:28Z) - Large Language Models As MOOCs Graders [3.379574469735166]
大規模言語モデル(LLM)を活用したMOOCのピアグレーディングの実現可能性について検討する。
LLMを指示するには、ゼロショットチェーン・オブ・シークレット・プロンプトの変種に基づく3つの異なるプロンプトを使用する。
以上の結果から,Zero-shot-CoTはインストラクターが提供する回答やルーリックと統合された場合,インストラクターが割り当てたものとより整合したグレードを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-06T07:43:07Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。