論文の概要: Automated essay scoring in Arabic: a dataset and analysis of a BERT-based system
- arxiv url: http://arxiv.org/abs/2407.11212v1
- Date: Mon, 15 Jul 2024 19:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:21:30.821003
- Title: Automated essay scoring in Arabic: a dataset and analysis of a BERT-based system
- Title(参考訳): アラビア語におけるエッセイの自動評価 : BERTに基づくシステムのデータセットと分析
- Authors: Rayed Ghazawi, Edwin Simpson,
- Abstract要約: 本研究では、2046人の学生エッセイからなるアラビアAESベンチマークデータセットであるAR-AESを紹介する。
AESにおけるAraBERTの使用の先駆者であり、様々な質問タイプでその性能を探求した。
BERTベースのAESシステムによるエラーの規模を初めて調査し、96.15%のエラーが最初のヒトマーカーの予測の1点以内であることを観察した。
- 参考スコア(独自算出の注目度): 3.101490720236325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Essay Scoring (AES) holds significant promise in the field of education, helping educators to mark larger volumes of essays and provide timely feedback. However, Arabic AES research has been limited by the lack of publicly available essay data. This study introduces AR-AES, an Arabic AES benchmark dataset comprising 2046 undergraduate essays, including gender information, scores, and transparent rubric-based evaluation guidelines, providing comprehensive insights into the scoring process. These essays come from four diverse courses, covering both traditional and online exams. Additionally, we pioneer the use of AraBERT for AES, exploring its performance on different question types. We find encouraging results, particularly for Environmental Chemistry and source-dependent essay questions. For the first time, we examine the scale of errors made by a BERT-based AES system, observing that 96.15 percent of the errors are within one point of the first human marker's prediction, on a scale of one to five, with 79.49 percent of predictions matching exactly. In contrast, additional human markers did not exceed 30 percent exact matches with the first marker, with 62.9 percent within one mark. These findings highlight the subjectivity inherent in essay grading, and underscore the potential for current AES technology to assist human markers to grade consistently across large classes.
- Abstract(参考訳): AES(Automated Essay Scoring)は、教育分野において大きな可能性を秘めており、教育者がより大きなエッセイをマークし、タイムリーなフィードバックを提供するのに役立つ。
しかし、アラブ首長国連邦の研究は、公的なエッセイデータがないために制限されている。
本研究では,性別情報やスコア,透明なルーリックに基づく評価ガイドラインを含む2046人の学部エッセイからなるアラビアAESベンチマークデータセットであるAR-AESを紹介する。
これらのエッセイは4つの異なるコースから成り、伝統的な試験とオンラインの試験の両方をカバーしている。
さらに、AraBERTをAESに利用し、異なる質問タイプでそのパフォーマンスを探求する先駆者となった。
我々は,特に環境化学と資源依存エッセイに関する質問に対して,奨励的な結果を見出した。
BERTベースのAESシステムによるエラーのスケールを初めて調べ、96.15%のエラーが最初のヒトマーカーの予測の1ポイント以内であり、1から5のスケールで、79.9%が正確に一致していることを観察した。
対照的に、追加のヒトマーカーは最初のマーカーと30%の精度で一致しておらず、62.9%は1つのマーカーで一致した。
これらの知見は、エッセイグレーディングに固有の主観性を強調し、ヒトマーカーを大規模クラスで一貫した格付けに支援する現在のAES技術の可能性を強調した。
関連論文リスト
- Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression [27.152245569974678]
我々は、複数の次元にまたがる英語エッセイを自動的にスコアする2つのモデルを開発する。
本システムでは, 精度, F1スコア, 四重重みカッパの3つの基準を用いて, 評価性能を高く評価する。
論文 参考訳(メタデータ) (2024-06-03T10:59:50Z) - Can GPT-4 do L2 analytic assessment? [34.445391091278786]
第二言語(L2)の習熟度を評価するための自動エッセイスコア(AES)は、何十年にもわたって教育の文脈で使われている、しっかりと確立された技術である。
本稿では,GPT-4をゼロショット方式で,総合的なスコアを付加したデータセット上で,一連の実験を行う。
自動予測された分析スコアと,個々の習熟度成分に関連する複数の特徴との間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2024-04-29T10:00:00Z) - Automatic Essay Scoring in a Brazilian Scenario [0.0]
本稿では,ブラジルのExame Nacional do Ensino M'edio(ENEM)のポルトガル語エッセイに合わせた,新しい自動エッセイスコーリング(AES)アルゴリズムを提案する。
提案手法は,高度な深層学習技術を活用して,学生エッセイの大量評価における効率性とスケーラビリティを目標とした,人間の評価基準に忠実に整合する。
論文 参考訳(メタデータ) (2023-12-29T23:05:18Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Survey of Aspect-based Sentiment Analysis Datasets [55.61047894397937]
アスペクトベースの感情分析(ABSA)は、ユーザ生成レビューの分析を必要とする自然言語処理の問題である。
ABSAの多くの散在したコーパスは、研究者が特定のABSAサブタスクに適したコーパスを素早く特定することを困難にしている。
本研究では,自律型ABSAシステムの学習・評価に使用できるコーパスデータベースを提案する。
論文 参考訳(メタデータ) (2022-04-11T16:23:36Z) - Prompt Agnostic Essay Scorer: A Domain Generalization Approach to
Cross-prompt Automated Essay Scoring [61.21967763569547]
クロスプロンプト自動エッセイスコア(英語: Cross-prompt automated essay score, AES)は、非ターゲットプロンプトエッセイを使用して目標プロンプトエッセイにスコアを付与するシステムである。
本稿では, クロスプロンプトAESのためのPAES(Prompt Agnostic Essay Scorer)を提案する。
本手法は,学習中にラベル付きあるいは未ラベルのターゲット・プロンプトデータにアクセスする必要がなく,単一段階のアプローチである。
論文 参考訳(メタデータ) (2020-08-04T10:17:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。