Fugu-MT 論文翻訳(概要): Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers

論文の概要: Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers

arxiv url: http://arxiv.org/abs/2012.11243v1
Date: Mon, 21 Dec 2020 10:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-27 06:36:59.489074
Title: Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers
Title（参考訳）: Get it Scored using AutoSAS -- 短い回答をスコーリングする自動化システム
Authors: Yaman Kumar, Swati Aggarwal, Debanjan Mahata, Rajiv Ratn Shah, Ponnurangam Kumaraguru, Roger Zimmermann
Abstract要約: SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。 SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。 AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
参考スコア（独自算出の注目度）: 63.835172924290326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of MOOCs, online exams are taken by millions of candidates, where scoring short answers is an integral part. It becomes intractable to evaluate them by human graders. Thus, a generic automated system capable of grading these responses should be designed and deployed. In this paper, we present a fast, scalable, and accurate approach towards automated Short Answer Scoring (SAS). We propose and explain the design and development of a system for SAS, namely AutoSAS. Given a question along with its graded samples, AutoSAS can learn to grade that prompt successfully. This paper further lays down the features such as lexical diversity, Word2Vec, prompt, and content overlap that plays a pivotal role in building our proposed model. We also present a methodology for indicating the factors responsible for scoring an answer. The trained model is evaluated on an extensively used public dataset, namely Automated Student Assessment Prize Short Answer Scoring (ASAP-SAS). AutoSAS shows state-of-the-art performance and achieves better results by over 8% in some of the question prompts as measured by Quadratic Weighted Kappa (QWK), showing performance comparable to humans.
Abstract（参考訳）: MOOCの時代、オンライン試験は何百万人もの候補者によって行われ、短い回答が不可欠である。人間の学年で評価するのは難しそうだ。したがって、これらの応答をグレードできる汎用的な自動化システムは、設計およびデプロイされるべきである。本稿では,sas(automated short answer scoring)に対する高速,スケーラブル,高精度なアプローチを提案する。本稿では,SASシステム,すなわちAutoSASの設計と開発について述べる。 AutoSASはそのグレードされたサンプルとともに質問を受け、それをうまく評価する方法を学ぶことができる。本稿ではさらに,提案モデルの構築において重要な役割を果たす語彙多様性,word2vec,プロンプト,コンテンツ重なりなどの特徴について述べる。また,回答のスコアを決定する要因を示す手法を提案する。トレーニングされたモデルは、広く使われている公開データセット、すなわちAutomated Student Assessment Prize Short Answer Scoring (ASAP-SAS)で評価される。 AutoSASは最先端のパフォーマンスを示し、Quadratic Weighted Kappa (QWK)が測定したいくつかの質問プロンプトで8%以上のパフォーマンスを実現し、人間に匹敵するパフォーマンスを示している。

関連論文リスト

SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文参考訳（メタデータ） (2025-05-12T05:43:21Z)
The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。この手法は2003年にTREC Question Answering (QA) Trackのために開発された。完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文参考訳（メタデータ） (2025-04-21T12:55:06Z)
Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback [3.2734777984053887]
そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
論文参考訳（メタデータ） (2024-09-30T07:48:55Z)
ASAG2024: A Combined Benchmark for Short Answer Grading [0.10826342457160269]
短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。我々は、自動階調システムの比較を容易にするために、ASAG2024ベンチマークを導入した。
論文参考訳（メタデータ） (2024-09-27T09:56:02Z)
Reducing the Cost: Cross-Prompt Pre-Finetuning for Short Answer Scoring [17.1154345762798]
我々は既存のルーリックのモデルを訓練し、金のスコア信号で答え、それを新しいプロンプトで微調整する。実験により、キーフレーズを用いた既存のクロスプロンプトデータの微調整により、スコアリング精度が大幅に向上することが示された。タスクの汎用性を学ぶためには,モデルの設計が不可欠である。
論文参考訳（メタデータ） (2024-08-26T00:23:56Z)
"I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文参考訳（メタデータ） (2024-06-30T15:42:18Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文参考訳（メタデータ） (2024-06-10T12:56:06Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文参考訳（メタデータ） (2024-05-22T13:14:11Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。