論文の概要: Beyond human subjectivity and error: a novel AI grading system
- arxiv url: http://arxiv.org/abs/2405.04323v1
- Date: Tue, 7 May 2024 13:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:00:34.864514
- Title: Beyond human subjectivity and error: a novel AI grading system
- Title(参考訳): 人間の主観性と誤りを超えた新しいAIグレーティングシステム
- Authors: Alexandra Gobrecht, Felix Tuma, Moritz Möller, Thomas Zöller, Mark Zakhvatkin, Alexandra Wuttig, Holger Sommerfeldt, Sven Schütt,
- Abstract要約: オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
- 参考スコア(独自算出の注目度): 67.410870290301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The grading of open-ended questions is a high-effort, high-impact task in education. Automating this task promises a significant reduction in workload for education professionals, as well as more consistent grading outcomes for students, by circumventing human subjectivity and error. While recent breakthroughs in AI technology might facilitate such automation, this has not been demonstrated at scale. It this paper, we introduce a novel automatic short answer grading (ASAG) system. The system is based on a fine-tuned open-source transformer model which we trained on large set of exam data from university courses across a large range of disciplines. We evaluated the trained model's performance against held-out test data in a first experiment and found high accuracy levels across a broad spectrum of unseen questions, even in unseen courses. We further compared the performance of our model with that of certified human domain experts in a second experiment: we first assembled another test dataset from real historical exams - the historic grades contained in that data were awarded to students in a regulated, legally binding examination process; we therefore considered them as ground truth for our experiment. We then asked certified human domain experts and our model to grade the historic student answers again without disclosing the historic grades. Finally, we compared the hence obtained grades with the historic grades (our ground truth). We found that for the courses examined, the model deviated less from the official historic grades than the human re-graders - the model's median absolute error was 44 % smaller than the human re-graders', implying that the model is more consistent than humans in grading. These results suggest that leveraging AI enhanced grading can reduce human subjectivity, improve consistency and thus ultimately increase fairness.
- Abstract(参考訳): オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
このタスクの自動化は、教育専門家の作業負荷の大幅な削減と、人間の主観性と誤りを回避することによって、学生のより一貫した成績を約束する。
最近のAI技術のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
このシステムは、さまざまな分野の大学コースから得られた大量の試験データをトレーニングした、微調整のオープンソーストランスフォーマーモデルに基づいています。
最初の実験では、学習モデルの性能を保留試験データと比較し、未確認のコースにおいても、広範囲の未確認質問に対して高い精度で評価した。
第2の実験では、まず、実際の歴史的試験から別のテストデータセットを収集し、そのデータに含まれる歴史的成績を、規制された法的拘束力のある試験プロセスで学生に授与した。
そして、認定された人間ドメインの専門家とモデルに、歴史学の成績を公表することなく、過去の学生の回答を再度評価するよう依頼した。
最後に、得られた学級を歴史的学級(地学の真理)と比較した。
その結果, モデルが人間の再学習者よりも公式の歴史的成績から逸脱し, モデルの平均的な絶対誤差は, 人間の再学習者よりも44 %小さいことがわかった。
これらの結果は、AIの強化されたグレーディングを活用することで、人間の主観性を低下させ、一貫性を向上し、究極的には公正性を高めることを示唆している。
関連論文リスト
- Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文 参考訳(メタデータ) (2024-05-11T20:07:09Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - Cheating Automatic Short Answer Grading: On the Adversarial Usage of
Adjectives and Adverbs [0.0]
我々は,学習用短解格付けシナリオに合わせたブラックボックス逆行攻撃を考案し,評価モデルの堅牢性について検討した。
最先端モデルBERTとT5を用いて,10~22ポイントの予測精度の低下を観測した。
本実験では,自動階調システムをより安全に活用するための推奨事項について述べる。
論文 参考訳(メタデータ) (2022-01-20T17:34:33Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Continual Learning for Blind Image Quality Assessment [80.55119990128419]
ブラインド画像品質評価(BIQA)モデルは、サブポピュレーションシフトに継続的に適応できない。
最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。
モデルがIQAデータセットのストリームから継続的に学習するBIQAの継続的学習を策定する。
論文 参考訳(メタデータ) (2021-02-19T03:07:01Z) - Predicting student performance using data from an auto-grading system [0.0]
我々はMarmoset自動階調システムから抽出した様々な特徴を持つ決定木モデルと線形回帰モデルを構築した。
本稿では, 入力時間間隔を用いた線形回帰モデルが, 精度とF-Measureの点で, 全モデルの中で最良であることを示す。
また,成績の悪い生徒に誤分類された生徒は,すべてのモデルにおいて,線形回帰モデルの中では最も低い実例があることが示唆された。
論文 参考訳(メタデータ) (2021-02-02T03:02:39Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。