論文の概要: Large Language Models As MOOCs Graders
- arxiv url: http://arxiv.org/abs/2402.03776v2
- Date: Sat, 10 Feb 2024 22:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:21:37.045784
- Title: Large Language Models As MOOCs Graders
- Title(参考訳): MOOCsグレーダーとしての大規模言語モデル
- Authors: Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger
- Abstract要約: 大規模言語モデル(LLM)を活用したMOOCのピアグレーディングの実現可能性について検討する。
LLMを指示するには、ゼロショットチェーン・オブ・シークレット・プロンプトの変種に基づく3つの異なるプロンプトを使用する。
以上の結果から,Zero-shot-CoTはインストラクターが提供する回答やルーリックと統合された場合,インストラクターが割り当てたものとより整合したグレードを生成することがわかった。
- 参考スコア(独自算出の注目度): 3.379574469735166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive open online courses (MOOCs) unlock the doors to free education for
anyone around the globe with access to a computer and the internet. Despite
this democratization of learning, the massive enrollment in these courses means
it is almost impossible for one instructor to assess every student's writing
assignment. As a result, peer grading, often guided by a straightforward
rubric, is the method of choice. While convenient, peer grading often falls
short in terms of reliability and validity. In this study, using 18 distinct
settings, we explore the feasibility of leveraging large language models (LLMs)
to replace peer grading in MOOCs. Specifically, we focus on two
state-of-the-art LLMs: GPT-4 and GPT-3.5, across three distinct courses:
Introductory Astronomy, Astrobiology, and the History and Philosophy of
Astronomy. To instruct LLMs, we use three different prompts based on a variant
of the zero-shot chain-of-thought (Zero-shot-CoT) prompting technique:
Zero-shot-CoT combined with instructor-provided correct answers; Zero-shot-CoT
in conjunction with both instructor-formulated answers and rubrics; and
Zero-shot-CoT with instructor-offered correct answers and LLM-generated
rubrics. Our results show that Zero-shot-CoT, when integrated with
instructor-provided answers and rubrics, produces grades that are more aligned
with those assigned by instructors compared to peer grading. However, the
History and Philosophy of Astronomy course proves to be more challenging in
terms of grading as opposed to other courses. Finally, our study reveals a
promising direction for automating grading systems for MOOCs, especially in
subjects with well-defined rubrics.
- Abstract(参考訳): 大規模なオープン・オンライン・コース(moocs)は、世界中の誰でもコンピュータとインターネットにアクセスできる自由教育の扉を開ける。
このような学習の民主化にもかかわらず、これらのコースの大規模な入学は、一人の教官が生徒全員の筆記課題を評価することはほぼ不可能であることを意味する。
結果として、単純なルーブリックによって導かれるピアグレーティングが選択方法である。
便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。
本研究では18の異なる設定を用いて,MOOCにおけるピアグレーディングを代替する大規模言語モデル(LLM)の実現可能性を検討する。
具体的には,GPT-4 と GPT-3.5 の3つの異なるコース,すなわち導入天文学,天文学,天文学史と哲学に焦点をあてる。
LLMを指導するためには、ゼロショットチェーン・オブ・シークレット (Zero-shot-CoT) の変種に基づく3つの異なるプロンプトを使用する: ゼロショット-CoTとインストラクターが提案した正解を組み合わせ、ゼロショット-CoTとインストラクターが生成した正解とLLMを併用するゼロショット-CoT。
その結果,Zero-shot-CoTはインストラクターが提供する回答やルーブリックと統合された場合,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。
しかし、天文学コースの歴史と哲学は、他のコースとは対照的に、成績付けの点でより困難であることが証明されている。
最後に,本研究は,特にルーブリックをよく定義した被験者において,moocのグレーティングシステムを自動化するための有望な方向性を示す。
関連論文リスト
- Grading Massive Open Online Courses Using Large Language Models [3.0936354370614607]
大規模なオープンオンラインコース(MOOC)は、コンピュータとインターネットアクセスを持つ人なら誰でも無料で教育を受けられる。
ピアグレーディング(Peergrading)は、しばしば直感的なルーリックによって導かれるもので、選択の方法である。
大規模言語モデル(LLM)を用いてMOOCのピアグレーディングを置き換えることの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-06-16T23:42:11Z) - Grade Like a Human: Rethinking Automated Assessment with Large Language Models [11.442433408767583]
大規模言語モデル(LLM)は自動階調に使われてきたが、人間と同等のパフォーマンスを達成できていない。
本稿では,次のキーコンポーネントを含むすべてのグルーピング手順に対処するLLMに基づくグルーピングシステムを提案する。
論文 参考訳(メタデータ) (2024-05-30T05:08:15Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - CITING: Large Language Models Create Curriculum for Instruction Tuning [35.66902011221179]
我々は、AIモデルを人間の代わりに活用して、学生のLLMを訓練するアイデアを生かしている。
本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
論文 参考訳(メタデータ) (2023-10-04T01:58:34Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Large Scale Analysis of Open MOOC Reviews to Support Learners' Course
Selection [17.376856503445826]
5つのプラットフォームから4400万レビュー(これまでで最大のMOOCレビューデータセット)を分析します。
その結果、数値格付けは明らかに偏っている(そのうち63%が5つ星格付けである)。
われわれの研究は、この領域に光を当て、オンライン教育のレビューにおいてより透明なアプローチを促進することを期待している。
論文 参考訳(メタデータ) (2022-01-11T10:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。