論文の概要: "I understand why I got this grade": Automatic Short Answer Grading with Feedback
- arxiv url: http://arxiv.org/abs/2407.12818v2
- Date: Mon, 23 Jun 2025 14:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.200972
- Title: "I understand why I got this grade": Automatic Short Answer Grading with Feedback
- Title(参考訳): 「なぜこの成績を得たのか理解している」:フィードバック付き自動短解答答書
- Authors: Dishank Aggarwal, Pritam Sil, Bhaskaran Raman, Pushpak Bhattacharyya,
- Abstract要約: 本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。
我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。
最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
- 参考スコア(独自算出の注目度): 33.63970664152288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a growing interest in using Artificial Intelligence (AI) to automate student assessment in education. Among different types of assessments, summative assessments play a crucial role in evaluating a student's understanding level of a course. Such examinations often involve short-answer questions. However, grading these responses and providing meaningful feedback manually at scale is both time-consuming and labor-intensive. Feedback is particularly important, as it helps students recognize their strengths and areas for improvement. Despite the importance of this task, there is a significant lack of publicly available datasets that support automatic short-answer grading with feedback generation. To address this gap, we introduce Engineering Short Answer Feedback (EngSAF), a dataset designed for automatic short-answer grading with feedback. The dataset covers a diverse range of subjects, questions, and answer patterns from multiple engineering domains and contains ~5.8k data points. We incorporate feedback into our dataset by leveraging the generative capabilities of state-of-the-art large language models (LLMs) using our Label-Aware Synthetic Feedback Generation (LASFG) strategy. This paper underscores the importance of enhanced feedback in practical educational settings, outlines dataset annotation and feedback generation processes, conducts a thorough EngSAF analysis, and provides different LLMs-based zero-shot and finetuned baselines for future comparison. The best-performing model (Mistral-7B) achieves an overall accuracy of 75.4% and 58.7% on unseen answers and unseen question test sets, respectively. Additionally, we demonstrate the efficiency and effectiveness of our ASAG system through its deployment in a real-world end-semester exam at a reputed institute.
- Abstract(参考訳): 近年,人工知能(AI)による学生評価の自動化への関心が高まっている。
様々なタイプの評価の中で、要約的評価は学生のコースの理解度を評価する上で重要な役割を担っている。
このような試験は、しばしば短い質問を伴う。
しかしながら、これらのレスポンスをグレードし、手動で大規模なフィードバックを提供するのは、時間と労力の両方を要します。
フィードバックは、生徒が自分の強みや改善すべき領域を認識するのを助けるため、特に重要である。
このタスクの重要性にもかかわらず、フィードバック生成によるショートアンサーの自動グレーディングをサポートする、公開データセットが大幅に欠落している。
このギャップに対処するために,フィードバックを伴って短時間回答の自動評価を目的としたデータセットであるEngineering Short Answer Feedback (EngSAF)を導入する。
このデータセットは、複数のエンジニアリングドメインからさまざまな主題、質問、回答パターンをカバーし、約5.8kのデータポイントを含んでいる。
我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。
本稿では、実践的な教育環境でのフィードバック強化の重要性を強調し、データセットアノテーションとフィードバック生成プロセスを概説し、EngSAF分析を徹底的に実施し、将来の比較のために異なるLLMベースのゼロショットおよび微調整ベースラインを提供する。
最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
さらに,評価機関における実世界の終末試験への展開を通じて,ASAGシステムの有効性と効果を実証した。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - A Zero-Shot LLM Framework for Automatic Assignment Grading in Higher Education [0.6141800972050401]
ゼロショット大言語モデル(LLM)に基づく自動アサインメントグレーディング(AAG)システムを提案する。
このフレームワークはプロンプトエンジニアリングを利用して、追加のトレーニングや微調整を必要とせず、計算と説明の両方の学生の反応を評価する。
AAGシステムは、個々の強みと改善の領域を強調した調整されたフィードバックを提供し、それによって学生の学習結果を向上する。
論文 参考訳(メタデータ) (2025-01-24T08:01:41Z) - Leveraging Retrieval-Augmented Generation for University Knowledge Retrieval [2.749898166276854]
本稿では,Large Language Models (LLM) を用いたレトリーバル拡張生成(RAG)パイプラインを用いた革新的なアプローチを提案する。
大学公式Webページからデータを体系的に抽出することにより、ユーザクエリに対する正確で文脈的に関連する応答を生成する。
実験の結果, 生成した応答の精度と関連性に大きな改善が認められた。
論文 参考訳(メタデータ) (2024-11-09T17:38:01Z) - Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback [3.2734777984053887]
そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。
その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
論文 参考訳(メタデータ) (2024-09-30T07:48:55Z) - Automated Long Answer Grading with RiceChem Dataset [19.34390869143846]
教育自然言語処理分野における新たな研究分野について紹介する:ALAG(Automated Long Answer Grading)
ALAGは、事実に基づく長い答えの複雑さと多面的な性質のために、ユニークな課題を提示している。
本稿では, 自然言語推論モデルを用いて, ALAG に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-22T16:28:09Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Survey on Automated Short Answer Grading with Deep Learning: from Word
Embeddings to Transformers [5.968260239320591]
教育課題を学生数の増加に拡大する手段として,ASAG (Automated Short answer grading) が教育において注目を集めている。
自然言語処理と機械学習の最近の進歩はASAGの分野に大きな影響を与えた。
論文 参考訳(メタデータ) (2022-03-11T13:47:08Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。