論文の概要: Modeling and Analyzing Scorer Preferences in Short-Answer Math Questions
- arxiv url: http://arxiv.org/abs/2306.00791v1
- Date: Thu, 1 Jun 2023 15:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:17:50.462095
- Title: Modeling and Analyzing Scorer Preferences in Short-Answer Math Questions
- Title(参考訳): ショートアンワー数学問題におけるスコアラー選好のモデル化と分析
- Authors: Mengxue Zhang and Neil Heffernan and Andrew Lan
- Abstract要約: 自動スコアリングタスクにおいて,個々のスコアラーの好みや傾向を考慮に入れたモデルの収集について検討する。
得点者の個人の嗜好や傾向を分析するために,定量的実験とケーススタディを実施している。
- 参考スコア(独自算出の注目度): 2.277447144331876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated scoring of student responses to open-ended questions, including
short-answer questions, has great potential to scale to a large number of
responses. Recent approaches for automated scoring rely on supervised learning,
i.e., training classifiers or fine-tuning language models on a small number of
responses with human-provided score labels. However, since scoring is a
subjective process, these human scores are noisy and can be highly variable,
depending on the scorer. In this paper, we investigate a collection of models
that account for the individual preferences and tendencies of each human scorer
in the automated scoring task. We apply these models to a short-answer math
response dataset where each response is scored (often differently) by multiple
different human scorers. We conduct quantitative experiments to show that our
scorer models lead to improved automated scoring accuracy. We also conduct
quantitative experiments and case studies to analyze the individual preferences
and tendencies of scorers. We found that scorers can be grouped into several
obvious clusters, with each cluster having distinct features, and analyzed them
in detail.
- Abstract(参考訳): オープンエンドの質問に対する学生の回答の自動スコア付けは、短い回答を含む多くの回答にスケールする可能性がある。
自動スコアリングの最近のアプローチは、教師あり学習、すなわち、人為的なスコアラベルによる少数の応答に対する訓練分類器や微調整言語モデルに依存している。
しかし、得点は主観的なプロセスであるため、これらの人間のスコアは騒がしく、得点者によって大きく変動することがある。
本稿では,自動採点作業における各得点者の個人選好と傾向を考慮したモデルの集合について検討する。
これらのモデルを、複数の異なる人間のスコアラーによって各応答が(しばしば異なる)短解数応答データセットに適用する。
定量的実験を行い、スコアラーモデルが自動スコアリング精度の向上につながることを示す。
また,得点者の個人の嗜好や傾向を分析するための定量的実験やケーススタディも行った。
その結果、スコアラはいくつかの明らかなクラスタにグループ化でき、各クラスタには異なる特徴があり、詳細に分析できることがわかった。
関連論文リスト
- Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文 参考訳(メタデータ) (2023-05-29T22:05:29Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Multi-Scored Sleep Databases: How to Exploit the Multiple-Labels in
Automated Sleep Scoring [19.24428734909019]
ラベル平滑化手法とソフトコンセンサス分布を併用して,モデルのトレーニング手順に複数の知識を挿入する。
我々は,平均コサイン類似度指標を導入し,-LSSCを用いたモデルで生成されたハイドノデンシティグラフとスコアラーコンセンサスで生成されたハイドノデンシティグラフとの類似度を定量化する。
論文 参考訳(メタデータ) (2022-07-05T09:41:21Z) - Automated Scoring for Reading Comprehension via In-context BERT Tuning [9.135673900486827]
本稿では,NAEP(National Assessment of Education Progress)自動採点課題に対する(大賞受賞)ソリューションについて報告する。
In-context BERT fine-tuning は、慎重に設計された入力構造を持つ全ての項目に対して単一のスコアリングモデルを生成する。
この課題から得られたトレーニングデータセットを用いて,地域評価によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-05-19T21:16:15Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Stacking Neural Network Models for Automatic Short Answer Scoring [0.0]
本稿では,ニューラルネットワークとXGBoostに基づく重ね合わせモデルを用いて文埋め込み機能を持つ分類プロセスを提案する。
ベストモデルではF1スコアの0.821が、同じデータセットで前の作業を上回った。
論文 参考訳(メタデータ) (2020-10-21T16:00:09Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。