論文の概要: ASAG2024: A Combined Benchmark for Short Answer Grading
- arxiv url: http://arxiv.org/abs/2409.18596v1
- Date: Fri, 27 Sep 2024 09:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 19:54:56.586734
- Title: ASAG2024: A Combined Benchmark for Short Answer Grading
- Title(参考訳): ASAG2024: 短解グラフのベンチマークを併用したベンチマーク
- Authors: Gérôme Meyer, Philip Breuer, Jonathan Fürst,
- Abstract要約: 短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。
様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。
我々は、自動階調システムの比較を容易にするために、ASAG2024ベンチマークを導入した。
- 参考スコア(独自算出の注目度): 0.10826342457160269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended questions test a more thorough understanding than closed-ended questions and are often a preferred assessment method. However, open-ended questions are tedious to grade and subject to personal bias. Therefore, there have been efforts to speed up the grading process through automation. Short Answer Grading (SAG) systems aim to automatically score students' answers. Despite growth in SAG methods and capabilities, there exists no comprehensive short-answer grading benchmark across different subjects, grading scales, and distributions. Thus, it is hard to assess the capabilities of current automated grading methods in terms of their generalizability. In this preliminary work, we introduce the combined ASAG2024 benchmark to facilitate the comparison of automated grading systems. Combining seven commonly used short-answer grading datasets in a common structure and grading scale. For our benchmark, we evaluate a set of recent SAG methods, revealing that while LLM-based approaches reach new high scores, they still are far from reaching human performance. This opens up avenues for future research on human-machine SAG systems.
- Abstract(参考訳): オープンエンドの質問は、クローズドエンドの質問よりも徹底的な理解をテストし、しばしば望ましい評価方法である。
しかし、オープンエンドの質問は、格付けが面倒で個人的な偏見を被る。
そのため、自動化によってグレーティングプロセスを高速化する努力が続けられている。
短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。
SAGの手法と能力の増大にもかかわらず、様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。
したがって、その一般化性の観点から、現在の自動階調法の性能を評価することは困難である。
本稿では,自動階調システムの比較を容易にするために,ASAG2024とASAG2024を併用したベンチマークを提案する。
一般的な7つのショートアンサーグレーディングデータセットを共通構造とグレーディングスケールで組み合わせる。
我々のベンチマークでは、最近のSAG手法の評価を行い、LSMベースのアプローチが新たなハイスコアに達する一方で、人間のパフォーマンスには程遠いことを明らかにした。
これにより、将来の人間機械SAGシステム研究への道が開ける。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization [31.722907135361492]
学習分析(LA)の文脈において、学習者の反応をより深く把握するための強力なツールとして、オープン・エンド・ショート・アンサー・質問(SAG)が広く認識されている。
SAGは、高グレードの作業負荷と一貫性のない評価に関する懸念のために、実際に課題を提示することが多い。
本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークであるGradeOptを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:11:24Z) - Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback [3.2734777984053887]
そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。
その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
論文 参考訳(メタデータ) (2024-09-30T07:48:55Z) - Generative Language Models with Retrieval Augmented Generation for Automated Short Answer Scoring [11.537413936317385]
自動短解答(ASAS)は教育評価において重要な要素である。
ジェネレーティブ言語モデル(GLM)の最近の進歩は、改善のための新たな機会を提供する。
本稿では, ベクトルデータベース, トランスフォーマーベースエンコーダ, GLMを組み合わせ, 短時間応答スコアリング精度を向上させるパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:42:13Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Grade Like a Human: Rethinking Automated Assessment with Large Language Models [11.442433408767583]
大規模言語モデル(LLM)は自動階調に使われてきたが、人間と同等のパフォーマンスを達成できていない。
本稿では,次のキーコンポーネントを含むすべてのグルーピング手順に対処するLLMに基づくグルーピングシステムを提案する。
論文 参考訳(メタデータ) (2024-05-30T05:08:15Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。