論文の概要: Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2603.06066v1
- Date: Fri, 06 Mar 2026 09:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.485586
- Title: Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring
- Title(参考訳): 自動評価のための大規模言語モデルを用いたオーストリアのAレベルドイツ語エッセイの評価
- Authors: Jonas Kubesch, Lena Huber, Clemens Havas,
- Abstract要約: 大規模言語モデル(LLM)は、前例のない柔軟性で学生の文章を評価することができる。
本稿では,オーストリアのAレベルドイツ語テキストの採点における最先端のオープンウェイトLLMの適用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Essay Scoring (AES) has been explored for decades with the goal to support teachers by reducing grading workload and mitigating subjective biases. While early systems relied on handcrafted features and statistical models, recent advances in Large Language Models (LLMs) have made it possible to evaluate student writing with unprecedented flexibility. This paper investigates the application of state-of-the-art open-weight LLMs for the grading of Austrian A-level German texts, with a particular focus on rubric-based evaluation. A dataset of 101 anonymised student exams across three text types was processed and evaluated. Four LLMs, DeepSeek-R1 32b, Qwen3 30b, Mixtral 8x7b and LLama3.3 70b, were evaluated with different contexts and prompting strategies. The LLMs were able to reach a maximum of 40.6% agreement with the human rater in the rubric-provided sub-dimensions, and only 32.8% of final grades matched the ones given by a human expert. The results indicate that even though smaller models are able to use standardised rubrics for German essay grading, they are not accurate enough to be used in a real-world grading environment.
- Abstract(参考訳): AES(Automated Essay Scoring)は,作業負荷の低減と主観的偏見の緩和によって教師を支援することを目的として,数十年にわたって研究されてきた。
初期のシステムは手作りの特徴や統計モデルに頼っていたが、近年のLarge Language Models (LLM) の進歩により、前例のない柔軟性で学生の文章を評価できるようになった。
本稿では,オーストリアのAレベルドイツ語文の格付けに最先端のオープンウェイト LLM を適用し,特にルーリックに基づく評価に焦点をあてる。
3種類のテキストを対象とした101名の匿名学生試験のデータセットを処理し,評価した。
4つのLCM、DeepSeek-R1 32b、Qwen3 30b、Mixtral 8x7b、LLama3.3 70bが異なる文脈で評価された。
LLMはルーリック製のサブディメンションで最大40.6%の合意に達し、最終グレードの32.8%は人間の専門家が与えたものと一致した。
結果は、より小さなモデルは、ドイツのエッセイグレーティングに標準化されたルーリックを使用することができるが、実世界のグレーティング環境で使用するには十分ではないことを示唆している。
関連論文リスト
- Machine-Assisted Grading of Nationwide School-Leaving Essay Exams with LLMs and Statistical NLP [0.0]
大規模言語モデル(LLM)は、オープンエンド試験応答の迅速かつ一貫した自動評価を可能にする。
我々は、公式カリキュラムベースのルーリックを運用し、LLMと統計自然言語処理(NLP)に基づく評価と人間のパネルスコアを比較した。
その結果, 自動スコアリングは, 人間のレーダに匹敵する性能を達成でき, 人間のスコアリング範囲に該当する傾向にあることがわかった。
論文 参考訳(メタデータ) (2026-01-22T20:44:39Z) - How Well Do LLMs Imitate Human Writing Style? [2.3754840025365183]
大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。
著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。
学術エッセイでは97.5%、クロスドメイン評価では94.5%の精度を達成している。
論文 参考訳(メタデータ) (2025-09-29T15:34:40Z) - Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring [8.71931996488953]
大規模言語モデルは、教師のためのエッセイ・スコーリング作業を容易にする潜在的なソリューションを提供する。
大規模言語モデルのようなジェネレーティブAIの最近の発展は、教師にとってエッセイ・スコリング・タスクを促進する潜在的なソリューションを提供する。
我々は,ドイツの学生エッセイの評価において,オープンソースとクローズドソースの両方のLCMの性能と信頼性を評価した。
論文 参考訳(メタデータ) (2024-11-25T12:33:14Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。