論文の概要: An Automated Explainable Educational Assessment System Built on LLMs
- arxiv url: http://arxiv.org/abs/2412.13381v1
- Date: Tue, 17 Dec 2024 23:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:52.718422
- Title: An Automated Explainable Educational Assessment System Built on LLMs
- Title(参考訳): LLMを用いた説明可能な教育評価システム
- Authors: Jiazheng Li, Artem Bobrov, David West, Cesare Aloisi, Yulan He,
- Abstract要約: AERA Chatは、学生の反応をインタラクティブかつ視覚的に評価するための自動教育アセスメントシステムである。
本システムでは,ユーザが質問や学生の回答を入力し,評価精度に関する洞察を教育者や研究者に提供する。
- 参考スコア(独自算出の注目度): 12.970776782360366
- License:
- Abstract: In this demo, we present AERA Chat, an automated and explainable educational assessment system designed for interactive and visual evaluations of student responses. This system leverages large language models (LLMs) to generate automated marking and rationale explanations, addressing the challenge of limited explainability in automated educational assessment and the high costs associated with annotation. Our system allows users to input questions and student answers, providing educators and researchers with insights into assessment accuracy and the quality of LLM-assessed rationales. Additionally, it offers advanced visualization and robust evaluation tools, enhancing the usability for educational assessment and facilitating efficient rationale verification. Our demo video can be found at https://youtu.be/qUSjz-sxlBc.
- Abstract(参考訳): 本稿では,学生の反応の対話的・視覚的評価を目的とした,自動的・説明可能な教育アセスメントシステムであるAERA Chatを紹介する。
このシステムは,大規模言語モデル(LLM)を活用して,自動マーキングと論理的説明を生成する。
本システムでは,学習者の質問や回答を入力し,学習者や研究者に評価精度とLLM評価の有理性に関する洞察を与える。
さらに、高度な可視化と堅牢な評価ツールを提供し、教育評価のユーザビリティを高め、効率的な合理性検証を容易にする。
デモビデオはhttps://youtu.be/qUSjz-sxlBc.comで公開されています。
関連論文リスト
- A Zero-Shot LLM Framework for Automatic Assignment Grading in Higher Education [0.6141800972050401]
ゼロショット大言語モデル(LLM)に基づく自動アサインメントグレーディング(AAG)システムを提案する。
このフレームワークはプロンプトエンジニアリングを利用して、追加のトレーニングや微調整を必要とせず、計算と説明の両方の学生の反応を評価する。
AAGシステムは、個々の強みと改善の領域を強調した調整されたフィードバックを提供し、それによって学生の学習結果を向上する。
論文 参考訳(メタデータ) (2025-01-24T08:01:41Z) - Human-Centered Design for AI-based Automatically Generated Assessment Reports: A Systematic Review [4.974197456441281]
本研究は,ユーザ中心・直感的デザインによる教師の認知的要求を減らすことの重要性を強調した。
テキスト、視覚支援、プロットなどの多様な情報提示フォーマットや、ユーザビリティを高めるためのライブやインタラクティブ機能などの高度な機能の可能性を強調します。
このフレームワークは、教師が技術強化された評価結果に取り組み、データ駆動による意思決定を容易にし、教育と学習プロセスを改善するためのパーソナライズされたフィードバックを提供することの課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-12-30T16:20:07Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment [12.970776782360366]
AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。
ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-12T11:57:53Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Lessons Learned from Designing an Open-Source Automated Feedback System
for STEM Education [5.326069675013602]
RATsAppはオープンソースの自動フィードバックシステム(AFS)で、フォーマティブフィードバックなどの研究ベースの機能を組み込んでいる。
このシステムは、数学的能力、表現能力、データリテラシーなどの中核的なSTEM能力に焦点を当てている。
オープンソースプラットフォームであるRATsAppは、継続的な開発へのパブリックコントリビューションを奨励し、教育ツールを改善するための共同アプローチを促進する。
論文 参考訳(メタデータ) (2024-01-19T07:13:07Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。