論文の概要: Automatic Essay Scoring and Feedback Generation in Basque Language Learning
- arxiv url: http://arxiv.org/abs/2512.08713v1
- Date: Tue, 09 Dec 2025 15:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.022134
- Title: Automatic Essay Scoring and Feedback Generation in Basque Language Learning
- Title(参考訳): バスク語学習における自動評価とフィードバック生成
- Authors: Ekhi Azurmendi, Xabier Arregi, Oier Lopez de Lacalle,
- Abstract要約: 本稿では,CEFR C1の習熟度を目標とした,AES(Automatic Essay Scoring)とフィードバック生成のための最初の公開データセットを紹介する。
データセットは、HABEから3,200のエッセイで構成され、それぞれ専門家評価者によって注釈付けされ、正確さ、豊かさ、一貫性、凝集度、タスクアライメントを詳細にフィードバックとエラーの例で表現する。
RoBERTa-EusCrawlやLatxa 8B/70Bといったオープンソースモデルを、スコアリングと説明生成の両方のために微調整します。
- 参考スコア(独自算出の注目度): 4.218073067465283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the first publicly available dataset for Automatic Essay Scoring (AES) and feedback generation in Basque, targeting the CEFR C1 proficiency level. The dataset comprises 3,200 essays from HABE, each annotated by expert evaluators with criterion specific scores covering correctness, richness, coherence, cohesion, and task alignment enriched with detailed feedback and error examples. We fine-tune open-source models, including RoBERTa-EusCrawl and Latxa 8B/70B, for both scoring and explanation generation. Our experiments show that encoder models remain highly reliable for AES, while supervised fine-tuning (SFT) of Latxa significantly enhances performance, surpassing state-of-the-art (SoTA) closed-source systems such as GPT-5 and Claude Sonnet 4.5 in scoring consistency and feedback quality. We also propose a novel evaluation methodology for assessing feedback generation, combining automatic consistency metrics with expert-based validation of extracted learner errors. Results demonstrate that the fine-tuned Latxa model produces criterion-aligned, pedagogically meaningful feedback and identifies a wider range of error types than proprietary models. This resource and benchmark establish a foundation for transparent, reproducible, and educationally grounded NLP research in low-resource languages such as Basque.
- Abstract(参考訳): 本稿では,CEFR C1の習熟度を目標とした,AES(Automatic Essay Scoring)とフィードバック生成のための最初の公開データセットを紹介する。
データセットは、HABEから3,200のエッセイで構成され、それぞれ専門家評価者によって注釈付けされ、正確さ、豊かさ、一貫性、凝集度、タスクアライメントを詳細にフィードバックとエラーの例で表現する。
RoBERTa-EusCrawlやLatxa 8B/70Bといったオープンソースモデルを、スコアリングと説明生成の両方のために微調整します。
実験の結果,Latxa のマイクロチューニング (SFT) は,GPT-5 や Claude Sonnet 4.5 といった最先端(SoTA) のクローズドソースシステムを超え,一貫性とフィードバック品質を向上する一方で,AES のエンコーダモデルに高い信頼性が保たれていることがわかった。
また,自動整合性指標と抽出した学習者誤りのエキスパートによる検証を組み合わせることで,フィードバック生成を評価する新しい評価手法を提案する。
その結果, 微調整されたLatxaモデルでは, 基準に整合した, 教育的に意味のあるフィードバックが得られ, プロプライエタリモデルよりも広い範囲のエラータイプが特定できることがわかった。
このリソースとベンチマークは、バスク語のような低リソース言語における透明で再現可能で教育的に基礎付けられたNLP研究の基礎を確立する。
関連論文リスト
- A Large-Scale Dataset and Citation Intent Classification in Turkish with LLMs [0.0]
まず、トルコ語による引用意図のデータセットを公開し、目的付けのアノテーションツールで作成する。
次に,Large Language Models (LLMs) を用いた標準インコンテキスト学習の性能評価を行い,手動で設計したプロンプトによる一貫性のない結果によってその効果が制限されることを示した。
最終分類には、複数の最適化されたモデルから出力を集約し、安定かつ信頼性の高い予測を保証するために、重ねられた一般化アンサンブルを用いる。
論文 参考訳(メタデータ) (2025-09-26T05:44:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。