論文の概要: S-GRADES -- Studying Generalization of Student Response Assessments in Diverse Evaluative Settings
- arxiv url: http://arxiv.org/abs/2603.10233v1
- Date: Tue, 10 Mar 2026 21:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.694203
- Title: S-GRADES -- Studying Generalization of Student Response Assessments in Diverse Evaluative Settings
- Title(参考訳): S-GRADES -- 異種評価設定における学生の反応評価の一般化に関する研究
- Authors: Tasfia Seuti, Sagnik Ray Choudhury,
- Abstract要約: 長いエッセイから短い事実回答への学生の反応を評価することは、NLPの教育において重要な課題である。
S-GRADESは、14の多様なグレーティングデータセットを統一インターフェースで統合するWebベースのベンチマークである。
S-GRADESの実用性を実証するために,複数の推論手法を用いて,ベンチマーク全体で最先端の3つの大規模言語モデルを評価した。
- 参考スコア(独自算出の注目度): 2.010691774041283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating student responses, from long essays to short factual answers, is a key challenge in educational NLP. Automated Essay Scoring (AES) focuses on holistic writing qualities such as coherence and argumentation, while Automatic Short Answer Grading (ASAG) emphasizes factual correctness and conceptual understanding. Despite their shared goal, these paradigms have progressed in isolation with fragmented datasets, inconsistent metrics, and separate communities. We introduce S-GRADES (Studying Generalization of Student Response Assessments in Diverse Evaluative Settings), a web-based benchmark that consolidates 14 diverse grading datasets under a unified interface with standardized access and reproducible evaluation protocols. The benchmark is fully open-source and designed for extensibility, enabling continuous integration of new datasets and evaluation settings. To demonstrate the utility of S-GRADES, we evaluate three state-of-the-art large language models across the benchmark using multiple reasoning strategies in prompting. We further examine the effects of exemplar selection and cross-dataset exemplar transfer. Our analyses illustrate how benchmark-driven evaluation reveals reliability and generalization gaps across essay and short-answer grading tasks, highlighting the importance of standardized, cross-paradigm assessment.
- Abstract(参考訳): 長いエッセイから短い事実回答まで、学生の反応を評価することは、教育的NLPにおいて重要な課題である。
AES(Automated Essay Scoring)はコヒーレンスや議論のような総合的な文章の質に焦点を当て、ASAG(Automatic Short Answer Grading)は事実の正しさと概念的理解を強調している。
共通の目標にもかかわらず、これらのパラダイムは、断片化されたデータセット、一貫性のないメトリクス、別々のコミュニティと分離して進化してきた。
S-GRADES(Studying Generalization of Students Response Assessments in Diverse Evaluative Settings)は、標準化されたアクセスと再現可能な評価プロトコルを備えた統一インターフェースの下で14の多様なグレーティングデータセットを統合するWebベースのベンチマークである。
ベンチマークは完全にオープンソースで、拡張性のために設計されており、新しいデータセットと評価設定の継続的統合を可能にする。
S-GRADESの実用性を実証するために,複数の推論手法を用いて,ベンチマーク全体で最先端の3つの大規模言語モデルを評価した。
さらに、模範選択と異種データセットの異種移動の影響について検討する。
本分析は,ベンチマークによる評価が,エッセイと短解格付けタスク間の信頼性と一般化のギャップを明らかにする方法を示し,標準化されたクロスパラダイム評価の重要性を強調した。
関連論文リスト
- Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。
本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。
スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文 参考訳(メタデータ) (2026-02-04T14:30:52Z) - Towards Human-Like Grading: A Unified LLM-Enhanced Framework for Subjective Question Evaluation [11.709100855086291]
本稿では,全ての主観的質問に対して人間ライクな評価を提供する,LLM(Large Language Model)拡張自動階調フレームワークを提案する。
本フレームワークは,4つの相補的なモジュールを統合し,学生の回答を総合的に評価する。
論文 参考訳(メタデータ) (2025-10-09T08:05:39Z) - Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Towards Interpretable Summary Evaluation via Allocation of Contextual
Embeddings to Reference Text Topics [1.5749416770494706]
多面的解釈可能な要約評価法(MISEM)は、要約の文脈トークンの埋め込みを、参照テキストで特定されたセマンティックトピックに割り当てることに基づいている。
MISEMはTAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。
論文 参考訳(メタデータ) (2022-10-25T17:09:08Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。