Fugu-MT 論文翻訳(概要): ASAG2024: A Combined Benchmark for Short Answer Grading

論文の概要: ASAG2024: A Combined Benchmark for Short Answer Grading

arxiv url: http://arxiv.org/abs/2409.18596v1
Date: Fri, 27 Sep 2024 09:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 19:54:56.586734
Title: ASAG2024: A Combined Benchmark for Short Answer Grading
Title（参考訳）: ASAG2024: 短解グラフのベンチマークを併用したベンチマーク
Authors: Gérôme Meyer, Philip Breuer, Jonathan Fürst,
Abstract要約: 短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。我々は、自動階調システムの比較を容易にするために、ASAG2024ベンチマークを導入した。
参考スコア（独自算出の注目度）: 0.10826342457160269
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-ended questions test a more thorough understanding than closed-ended questions and are often a preferred assessment method. However, open-ended questions are tedious to grade and subject to personal bias. Therefore, there have been efforts to speed up the grading process through automation. Short Answer Grading (SAG) systems aim to automatically score students' answers. Despite growth in SAG methods and capabilities, there exists no comprehensive short-answer grading benchmark across different subjects, grading scales, and distributions. Thus, it is hard to assess the capabilities of current automated grading methods in terms of their generalizability. In this preliminary work, we introduce the combined ASAG2024 benchmark to facilitate the comparison of automated grading systems. Combining seven commonly used short-answer grading datasets in a common structure and grading scale. For our benchmark, we evaluate a set of recent SAG methods, revealing that while LLM-based approaches reach new high scores, they still are far from reaching human performance. This opens up avenues for future research on human-machine SAG systems.
Abstract（参考訳）: オープンエンドの質問は、クローズドエンドの質問よりも徹底的な理解をテストし、しばしば望ましい評価方法である。しかし、オープンエンドの質問は、格付けが面倒で個人的な偏見を被る。そのため、自動化によってグレーティングプロセスを高速化する努力が続けられている。短解像システム(SAG)は,生徒の回答を自動的に収集することを目的としている。 SAGの手法と能力の増大にもかかわらず、様々な科目、階調尺度、分布の総合的なショート・アンサー・グレーティング・ベンチマークは存在しない。したがって、その一般化性の観点から、現在の自動階調法の性能を評価することは困難である。本稿では,自動階調システムの比較を容易にするために,ASAG2024とASAG2024を併用したベンチマークを提案する。一般的な7つのショートアンサーグレーディングデータセットを共通構造とグレーディングスケールで組み合わせる。我々のベンチマークでは、最近のSAG手法の評価を行い、LSMベースのアプローチが新たなハイスコアに達する一方で、人間のパフォーマンスには程遠いことを明らかにした。これにより、将来の人間機械SAGシステム研究への道が開ける。

関連論文リスト

Focusing on Students, not Machines: Grounded Question Generation and Automated Answer Grading [0.0]
本論文は,授業教材に根ざした質問を生成し,生徒の回答を自動的に評価するシステムの基礎を提示する。ビジュアルレイアウトで文書をチャンクする高度な手法を導入し、特にPDF文書をターゲットとした。自動グルーピングシステムの比較を容易にするために、短い回答の自動グルーピングのための新しいベンチマークを導入した。
論文参考訳（メタデータ） (2025-06-02T05:32:23Z)
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文参考訳（メタデータ） (2025-04-26T07:48:52Z)
The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。この手法は2003年にTREC Question Answering (QA) Trackのために開発された。完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文参考訳（メタデータ） (2025-04-21T12:55:06Z)
LLM-based Automated Grading with Human-in-the-Loop [32.14015215819979]
大規模言語モデル (LLM) は、自動短応答グレーディング (ASAG) にますます使われている。本研究では,Human-in-the-loop (HITL) アプローチを用いて,ASAGタスクにおけるLLMの可能性を探究する。提案するフレームワークである GradeHITL は LLM の生成特性を利用して人間の専門家に質問を投げかける。
論文参考訳（メタデータ） (2025-04-07T16:23:07Z)
LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文参考訳（メタデータ） (2024-10-20T22:59:34Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization [31.722907135361492]
学習分析(LA)の文脈において、学習者の反応をより深く把握するための強力なツールとして、オープン・エンド・ショート・アンサー・質問(SAG)が広く認識されている。 SAGは、高グレードの作業負荷と一貫性のない評価に関する懸念のために、実際に課題を提示することが多い。本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークであるGradeOptを提案する。
論文参考訳（メタデータ） (2024-10-03T03:11:24Z)
Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback [3.2734777984053887]
そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
論文参考訳（メタデータ） (2024-09-30T07:48:55Z)
Generative Language Models with Retrieval Augmented Generation for Automated Short Answer Scoring [11.537413936317385]
自動短解答(ASAS)は教育評価において重要な要素である。ジェネレーティブ言語モデル(GLM)の最近の進歩は、改善のための新たな機会を提供する。本稿では, ベクトルデータベース, トランスフォーマーベースエンコーダ, GLMを組み合わせ, 短時間応答スコアリング精度を向上させるパイプラインを提案する。
論文参考訳（メタデータ） (2024-08-07T14:42:13Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
"I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文参考訳（メタデータ） (2024-06-30T15:42:18Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Grade Like a Human: Rethinking Automated Assessment with Large Language Models [11.442433408767583]
大規模言語モデル(LLM)は自動階調に使われてきたが、人間と同等のパフォーマンスを達成できていない。本稿では,次のキーコンポーネントを含むすべてのグルーピング手順に対処するLLMに基づくグルーピングシステムを提案する。
論文参考訳（メタデータ） (2024-05-30T05:08:15Z)
Get It Scored Using AutoSAS -- An Automated System for Scoring Short Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。 SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。 AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文参考訳（メタデータ） (2020-12-21T10:47:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。