論文の概要: Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers
- arxiv url: http://arxiv.org/abs/2012.11243v1
- Date: Mon, 21 Dec 2020 10:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:36:59.489074
- Title: Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers
- Title(参考訳): Get it Scored using AutoSAS -- 短い回答をスコーリングする自動化システム
- Authors: Yaman Kumar, Swati Aggarwal, Debanjan Mahata, Rajiv Ratn Shah,
Ponnurangam Kumaraguru, Roger Zimmermann
- Abstract要約: SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
- 参考スコア(独自算出の注目度): 63.835172924290326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of MOOCs, online exams are taken by millions of candidates, where
scoring short answers is an integral part. It becomes intractable to evaluate
them by human graders. Thus, a generic automated system capable of grading
these responses should be designed and deployed. In this paper, we present a
fast, scalable, and accurate approach towards automated Short Answer Scoring
(SAS). We propose and explain the design and development of a system for SAS,
namely AutoSAS. Given a question along with its graded samples, AutoSAS can
learn to grade that prompt successfully. This paper further lays down the
features such as lexical diversity, Word2Vec, prompt, and content overlap that
plays a pivotal role in building our proposed model. We also present a
methodology for indicating the factors responsible for scoring an answer. The
trained model is evaluated on an extensively used public dataset, namely
Automated Student Assessment Prize Short Answer Scoring (ASAP-SAS). AutoSAS
shows state-of-the-art performance and achieves better results by over 8% in
some of the question prompts as measured by Quadratic Weighted Kappa (QWK),
showing performance comparable to humans.
- Abstract(参考訳): MOOCの時代、オンライン試験は何百万人もの候補者によって行われ、短い回答が不可欠である。
人間の学年で評価するのは難しそうだ。
したがって、これらの応答をグレードできる汎用的な自動化システムは、設計およびデプロイされるべきである。
本稿では,sas(automated short answer scoring)に対する高速,スケーラブル,高精度なアプローチを提案する。
本稿では,SASシステム,すなわちAutoSASの設計と開発について述べる。
AutoSASはそのグレードされたサンプルとともに質問を受け、それをうまく評価する方法を学ぶことができる。
本稿ではさらに,提案モデルの構築において重要な役割を果たす語彙多様性,word2vec,プロンプト,コンテンツ重なりなどの特徴について述べる。
また,回答のスコアを決定する要因を示す手法を提案する。
トレーニングされたモデルは、広く使われている公開データセット、すなわちAutomated Student Assessment Prize Short Answer Scoring (ASAP-SAS)で評価される。
AutoSASは最先端のパフォーマンスを示し、Quadratic Weighted Kappa (QWK)が測定したいくつかの質問プロンプトで8%以上のパフォーマンスを実現し、人間に匹敵するパフォーマンスを示している。
関連論文リスト
- Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback [3.2734777984053887]
そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。
その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
論文 参考訳(メタデータ) (2024-09-30T07:48:55Z) - ASAG2024: A Combined Benchmark for Short Answer Grading [0.10826342457160269]
短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。
様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。
我々は、自動階調システムの比較を容易にするために、ASAG2024ベンチマークを導入した。
論文 参考訳(メタデータ) (2024-09-27T09:56:02Z) - Reducing the Cost: Cross-Prompt Pre-Finetuning for Short Answer Scoring [17.1154345762798]
我々は既存のルーリックのモデルを訓練し、金のスコア信号で答え、それを新しいプロンプトで微調整する。
実験により、キーフレーズを用いた既存のクロスプロンプトデータの微調整により、スコアリング精度が大幅に向上することが示された。
タスクの汎用性を学ぶためには,モデルの設計が不可欠である。
論文 参考訳(メタデータ) (2024-08-26T00:23:56Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。
従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。
我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文 参考訳(メタデータ) (2024-06-10T12:56:06Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。
複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文 参考訳(メタデータ) (2024-05-22T13:14:11Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。