論文の概要: CoTAL: Human-in-the-Loop Prompt Engineering, Chain-of-Thought Reasoning, and Active Learning for Generalizable Formative Assessment Scoring
- arxiv url: http://arxiv.org/abs/2504.02323v1
- Date: Thu, 03 Apr 2025 06:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:06.489297
- Title: CoTAL: Human-in-the-Loop Prompt Engineering, Chain-of-Thought Reasoning, and Active Learning for Generalizable Formative Assessment Scoring
- Title(参考訳): CoTAL: ヒューマン・イン・ザ・ループ・プロンプト・エンジニアリング、チェーン・オブ・ソート・推論、および一般化可能な形式的アセスメント・スコアリングのためのアクティブ・ラーニング
- Authors: Clayton Cohn, Nicole Hutchins, Ashwin T S, Gautam Biswas,
- Abstract要約: チェーン・オブ・ソート(CoT)のような手法は、教師が科学の形式的評価を格付けできるようにする。
これらの手法が複数の領域でキュリキュラにまたがる一般化の程度は、まだほとんど証明されていない。
書式評価評価のための LLM ベースのアプローチである Chain-of-Thought Prompting + Active Learning (CoTAL) を導入する。
- 参考スコア(独自算出の注目度): 2.249916681499244
- License:
- Abstract: Large language models (LLMs) have created new opportunities to assist teachers and support student learning. Methods such as chain-of-thought (CoT) prompting enable LLMs to grade formative assessments in science, providing scores and relevant feedback to students. However, the extent to which these methods generalize across curricula in multiple domains (such as science, computing, and engineering) remains largely untested. In this paper, we introduce Chain-of-Thought Prompting + Active Learning (CoTAL), an LLM-based approach to formative assessment scoring that (1) leverages Evidence-Centered Design (ECD) principles to develop curriculum-aligned formative assessments and rubrics, (2) applies human-in-the-loop prompt engineering to automate response scoring, and (3) incorporates teacher and student feedback to iteratively refine assessment questions, grading rubrics, and LLM prompts for automated grading. Our findings demonstrate that CoTAL improves GPT-4's scoring performance, achieving gains of up to 24.5% over a non-prompt-engineered baseline. Both teachers and students view CoTAL as effective in scoring and explaining student responses, each providing valuable refinements to enhance grading accuracy and explanation quality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教師を支援し、学生の学習を支援する新しい機会を生み出している。
チェーン・オブ・ソート(CoT)のような手法により、LLMは科学の形式的評価を格付けし、学生にスコアと関連するフィードバックを提供することができる。
しかし、これらの手法が複数の分野(科学、コンピューティング、工学など)のカリキュラムにまたがる一般化の程度は、まだほとんど証明されていない。
本稿では,(1)Evidence-Centered Design(ECD)の原則を活用してカリキュラムに整合した書式評価とルーブリックを開発すること,(2)回答評価の自動化に人間-イン・ザ・ループ・プロンプト・エンジニアリングを適用すること,(3)教師と学生のフィードバックを,反復的に評価の質問を洗練し,格付けするルーブリックとLCMのプロンプトを取り入れた,書式評価のためのLCMベースのアプローチであるChain-of-Thought Prompting + Active Learning(CoTAL)を紹介する。
その結果,CoTALはGPT-4のスコアリング性能を向上し,非プロンプトエンジンベースラインよりも最大24.5%向上した。
教師も生徒も、CoTALを学生の反応のスコア付けや説明に効果的だと考えている。
関連論文リスト
- Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - A Zero-Shot LLM Framework for Automatic Assignment Grading in Higher Education [0.6141800972050401]
ゼロショット大言語モデル(LLM)に基づく自動アサインメントグレーディング(AAG)システムを提案する。
このフレームワークはプロンプトエンジニアリングを利用して、追加のトレーニングや微調整を必要とせず、計算と説明の両方の学生の反応を評価する。
AAGシステムは、個々の強みと改善の領域を強調した調整されたフィードバックを提供し、それによって学生の学習結果を向上する。
論文 参考訳(メタデータ) (2025-01-24T08:01:41Z) - CodEv: An Automated Grading Framework Leveraging Large Language Models for Consistent and Constructive Feedback [0.0]
本研究では,Large Language Models (LLMs)を活用して,一貫した構築的フィードバックを提供する自動階調フレームワークCodEvを提案する。
また,LCMアンサンブルを統合してスコアの精度と一貫性を向上させるとともに,信頼性の高いフィードバックとコードレビューコメントを提供する合意テストを実施している。
論文 参考訳(メタデータ) (2025-01-10T03:09:46Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - A Chain-of-Thought Prompting Approach with LLMs for Evaluating Students' Formative Assessment Responses in Science [3.124884279860061]
本研究では,中学生の地球科学における自動評価にGPT-4を活用することに焦点を当てた。
提案手法のプロスとコンスのシステマティック解析により,自動階調向上のためのヒト・イン・ザ・ループ技術の可能性に光を当てる。
論文 参考訳(メタデータ) (2024-03-21T17:09:08Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。