論文の概要: Grading Massive Open Online Courses Using Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11102v1
- Date: Sun, 16 Jun 2024 23:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-18 18:53:41.185812
- Title: Grading Massive Open Online Courses Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた大規模オープンオンラインコースのグラディング
- Authors: Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger,
- Abstract要約: 大規模なオープンオンラインコース(MOOC)は、コンピュータとインターネットアクセスを持つ人なら誰でも無料で教育を受けられる。
ピアグレーディング(Peergrading)は、しばしば直感的なルーリックによって導かれるもので、選択の方法である。
大規模言語モデル(LLM)を用いてMOOCのピアグレーディングを置き換えることの実現可能性について検討する。
- 参考スコア(独自算出の注目度): 3.0936354370614607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive open online courses (MOOCs) offer free education globally to anyone with a computer and internet access. Despite this democratization of learning, the massive enrollment in these courses makes it impractical for one instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, we explore the feasibility of using large language models (LLMs) to replace peer grading in MOOCs. Specifically, we use two LLMs, GPT-4 and GPT-3.5, across three MOOCs: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on the zero-shot chain-of-thought (ZCoT) prompting technique: (1) ZCoT with instructor-provided correct answers, (2) ZCoT with both instructor-provided correct answers and rubrics, and (3) ZCoT with instructor-provided correct answers and LLM-generated rubrics. Tested on 18 settings, our results show that ZCoT, when augmented with instructor-provided correct answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. Finally, our findings indicate a promising potential for automated grading systems in MOOCs, especially in subjects with well-defined rubrics, to improve the learning experience for millions of online learners worldwide.
- Abstract(参考訳): 大規模なオープンオンラインコース(MOOC)は、コンピュータとインターネットアクセスを持つ人なら誰でも無料で教育を受けられる。
このような学習の民主化にもかかわらず、これらの講座への大規模な入学は、一人の教官がすべての学生の筆記課題を評価するのを非現実的にする。
結果として、素直なルーリックによって導かれるピアグレーディングが、選択の方法である。
便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。
本研究では,MOOCにおけるピアグレーディングの代替として,大規模言語モデル(LLM)の利用の可能性を検討する。
具体的には、3つのMOOC(Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy)にまたがる2つのLCM(GPT-4, GPT-3.5)を用いる。
LLMのインストラクションには,(1)インストラクタが提供する正解がZCoT,(2)インストラクタが提供する正解がZCoT,(3)インストラクタが提供する正解がZCoT,(3)インストラクタが生成した正解がZCoTである。
その結果,ZCoTはインストラクターが提案する正解とルーブリックを付加すると,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。
最後に,MOOCにおける自動学習システム,特に明確に定義されたルーリックの被験者が,世界中の何百万人ものオンライン学習者の学習体験を改善する上で有望な可能性を示唆した。
関連論文リスト
- Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Using Large Language Models for Automated Grading of Student Writing about Science [2.883578416080909]
AIは、学生の文章を評価するために大きな言語モデル(LLM)を使用する可能性を導入した。
GPT-4を用いてLLMに基づく機械学習手法がインストラクターグレーティングの信頼性に適合するか否かを判定する実験を行った。
結果はまた、評価内容とモードが類似している大学環境での非科学専攻にも適用されるべきである。
論文 参考訳(メタデータ) (2024-12-25T00:31:53Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - LLMs as Meta-Reviewers' Assistants: A Case Study [4.345138609587135]
大言語モデル(LLM)は、専門家の意見の制御された多視点要約(MPS)を生成するために使用することができる。
本稿では,GPT-3.5,LLaMA2,PaLM2の3種類のLPMを用いて,メタリビューアによる専門家の理解を深めるためのケーススタディを行う。
論文 参考訳(メタデータ) (2024-02-23T20:14:16Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - Large Language Models As MOOCs Graders [3.379574469735166]
大規模言語モデル(LLM)を活用したMOOCのピアグレーディングの実現可能性について検討する。
LLMを指示するには、ゼロショットチェーン・オブ・シークレット・プロンプトの変種に基づく3つの異なるプロンプトを使用する。
以上の結果から,Zero-shot-CoTはインストラクターが提供する回答やルーリックと統合された場合,インストラクターが割り当てたものとより整合したグレードを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-06T07:43:07Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Measuring Five Accountable Talk Moves to Improve Instruction at Scale [1.4549461207028445]
説明可能な会話理論にインスパイアされた5つの指導的話の動きを識別するモデルを微調整する。
学習者のエンゲージメントと満足度を指標として,各講演の動きのインストラクターの使い方を関連づける。
これらの結果は、説明可能な話し方の有効性に関する過去の研究を裏付けるものである。
論文 参考訳(メタデータ) (2023-11-02T03:04:50Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - How does online teamwork change student communication patterns in
programming courses? [0.0]
近年の研究では、対人コミュニケーションがオンライン教育の学習結果に肯定的な影響を及ぼすことが示されている。
本研究では,MOOCにおけるピアコミュニケーションが制限されているコミュニケーションパターンと,オンライン・ピア・インストラクションに学生が関与しているブレンド・コースのコミュニケーションパターンを比較した。
論文 参考訳(メタデータ) (2022-04-08T18:34:52Z) - Large Scale Analysis of Open MOOC Reviews to Support Learners' Course
Selection [17.376856503445826]
5つのプラットフォームから4400万レビュー(これまでで最大のMOOCレビューデータセット)を分析します。
その結果、数値格付けは明らかに偏っている(そのうち63%が5つ星格付けである)。
われわれの研究は、この領域に光を当て、オンライン教育のレビューにおいてより透明なアプローチを促進することを期待している。
論文 参考訳(メタデータ) (2022-01-11T10:24:49Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。